Επιλογές για HTML ξύσιμο;

ψήφοι
378

Σκέφτομαι να προσπαθεί Όμορφη σούπα , ένα πακέτο Python για HTML απόξεση. Υπάρχουν άλλα πακέτα απόξεση HTML που θα πρέπει να εξετάσουμε εκεί; Python δεν είναι μια απαίτηση, είμαι πραγματικά ενδιαφέρονται για ακρόαση σχετικά με άλλες γλώσσες.

Η ιστορία μέχρι τώρα:

Δημοσιεύθηκε 05/08/2008 στις 22:09
πηγή χρήστη
Σε άλλες γλώσσες...                            


40 απαντήσεις

ψήφοι
54

Στον κόσμο Ruby ισοδυναμεί με όμορφη σούπα είναι why_the_lucky_stiff του Hpricot .

Απαντήθηκε 05/08/2008 στις 22:13
πηγή χρήστη

ψήφοι
39

Στον κόσμο .NET, ήθελα να συστήσω το HTML Agility Pack. Δεν είναι κοντά τόσο απλό όσο κάποιες από τις παραπάνω επιλογές (όπως HTMLSQL), αλλά είναι πολύ ευέλικτο. Σας επιτρέπει να maniuplate κακόμορφος HTML σαν να ήταν καλά σχηματισμένα XML, ώστε να μπορείτε να χρησιμοποιήσετε το XPath ή απλά itereate πάνω από κόμβους.

http://www.codeplex.com/htmlagilitypack

Απαντήθηκε 07/08/2008 στις 19:38
πηγή χρήστη

ψήφοι
32

BeautifulSoup είναι ένας πολύ καλός τρόπος να πάει για HTML απόξεση. προηγούμενη δουλειά μου μου είχε κάνει πολύ ξύσιμο και μακάρι να ήξερα για BeautifulSoup όταν ξεκίνησα. Είναι σαν το DOM με πολύ πιο χρήσιμες επιλογές και είναι πολύ πιο pythonic. Αν θέλετε να δοκιμάσετε Ruby θα μεταφερθεί BeautifulSoup χαρακτηρίζοντάς την RubyfulSoup αλλά δεν έχει ενημερωθεί σε μια στιγμή.

Άλλα χρήσιμα εργαλεία είναι HTMLParser ή sgmllib.SGMLParser που αποτελούν μέρος της πρότυπης βιβλιοθήκης της Python. Αυτές οι εργασίες καλώντας μεθόδους κάθε φορά που εισάγετε / έξοδο ένα κείμενο ετικέτας και συνάντηση html. Είναι σαν Expat αν είστε εξοικειωμένοι με αυτό. Αυτές οι βιβλιοθήκες είναι ιδιαίτερα χρήσιμο εάν πρόκειται να αναλύσει πολύ μεγάλα αρχεία και δημιουργώντας ένα δέντρο DOM θα είναι μακρά και δαπανηρή.

Κανονικές εκφράσεις δεν είναι πολύ αναγκαίο. BeautifulSoup χειρίζεται κανονικές εκφράσεις ώστε αν χρειαστεί δύναμη τους, μπορείτε να το χρησιμοποιήσετε εκεί. Λέω πάει με BeautifulSoup αν χρειάζεστε ταχύτητα και ένα μικρότερο αποτύπωμα μνήμης. Αν βρείτε ένα καλύτερο πρόγραμμα ανάλυσης HTML σε Python, επιτρέψτε μου να ξέρω.

Απαντήθηκε 07/08/2008 στις 19:18
πηγή χρήστη

ψήφοι
18

Βρήκα HTMLSQL να είναι μια γελοία απλός τρόπος για να screenscrape. Παίρνει κυριολεκτικά λεπτά για να πάρει τα αποτελέσματα με αυτό.

Τα ερωτήματα είναι υπερ-διαισθητικό - όπως:

SELECT title from img WHERE $class == 'userpic'

Υπάρχουν σήμερα κάποιες άλλες εναλλακτικές λύσεις που έχουν την ίδια προσέγγιση.

Απαντήθηκε 07/08/2008 στις 19:31
πηγή χρήστη

ψήφοι
16

Οι Python lxml βιβλιοθήκη δρα ως Pythonic δεσμευτική για τις βιβλιοθήκες libxml2 και libxslt. Μου αρέσει ιδιαίτερα την υποστήριξη XPath και πολύ-εκτύπωση της δομής XML στη μνήμη. Επίσης, υποστηρίζει την ανάλυση σπασμένα HTML. Και δεν νομίζω ότι μπορείτε να βρείτε άλλες Python βιβλιοθήκες / συνδέσεις που ανάλυση XML πιο γρήγορα από ό, τι lxml.

Απαντήθηκε 17/09/2008 στις 13:44
πηγή χρήστη

ψήφοι
15

Για Perl, υπάρχει WWW :: Mechanize.

Απαντήθηκε 06/08/2008 στις 00:37
πηγή χρήστη

ψήφοι
11

Γιατί κανείς δεν αναφέρθηκε JSOUP ακόμη για Java; http://jsoup.org/

Απαντήθηκε 10/02/2012 στις 20:42
πηγή χρήστη

ψήφοι
11

«Απλή HTML DOM Parser είναι μια καλή επιλογή για την PHP, αν εξοικειωμένοι σας με jQuery ή JavaScript επιλογείς, τότε θα βρείτε τον εαυτό σας στο σπίτι.

Βρείτε το εδώ

Υπάρχει επίσης μια θέση blog για αυτό εδώ.

Απαντήθηκε 31/07/2009 στις 20:39
πηγή χρήστη

ψήφοι
10

Η Python έχει αρκετές επιλογές για HTML απόξεση επιπλέον στην όμορφη σούπα. Εδώ είναι μερικοί άλλοι:

  • μηχανοποιώ : παρόμοια με perl WWW:Mechanize. Σας δίνει ένα πρόγραμμα περιήγησης όπως το αντικείμενο για να ineract με ιστοσελίδες
  • lxml : Python δέσμευση libwww. Υποστηρίζει διάφορες επιλογές για να διασχίσει και να επιλέξετε στοιχεία (π.χ. XPath και επιλογή CSS)
  • scrapemark : Βιβλιοθήκη υψηλού επιπέδου, χρησιμοποιώντας πρότυπα για να εξαγάγετε πληροφορίες από την HTML.
  • pyquery : σας επιτρέπει να κάνετε jQuery, όπως ερωτήματα σχετικά έγγραφα XML.
  • scrapy : ένα υψηλό επίπεδο ξύσιμο και web crawling πλαίσιο. Μπορεί να χρησιμοποιηθεί για να γράψει αράχνες, για εξόρυξη δεδομένων και για την παρακολούθηση και αυτοματοποιημένη δοκιμή
Απαντήθηκε 28/12/2009 στις 17:59
πηγή χρήστη

ψήφοι
9

Η templatemaker χρησιμότητα του Adrian Holovaty (του Django φήμη) χρησιμοποιεί μια πολύ ενδιαφέρουσα προσέγγιση: Θα τροφοδοτήσει παραλλαγές είναι της ίδιας σελίδας και «μαθαίνει», όπου οι «τρύπες» για τη μεταβλητή δεδομένων είναι. Δεν είναι HTML συγκεκριμένες, γι 'αυτό θα ήταν καλό για την απόξεση οποιουδήποτε άλλου απλού κειμένου περιεχόμενο, καθώς και. Το έχω χρησιμοποιήσει και για αρχεία PDF και HTML μετατρέπεται σε απλό κείμενο (με pdftotext και ο λύγκας, αντίστοιχα).

Απαντήθηκε 18/09/2008 στις 21:13
πηγή χρήστη

ψήφοι
7

Ξέρω και την αγάπη Screen-Ξύστρα .

Οθόνη-Ξύστρα είναι ένα εργαλείο για την εξαγωγή δεδομένων από ιστοσελίδες. Οθόνη-Ξύστρα αυτοματοποιεί:

* Clicking links on websites
* Entering data into forms and submitting
* Iterating through search result pages
* Downloading files (PDF, MS Word, images, etc.)

Συχνές χρήσεις:

* Download all products, records from a website
* Build a shopping comparison site
* Perform market research
* Integrate or migrate data

Τεχνικός:

* Graphical interface--easy automation
* Cross platform (Linux, Mac, Windows, etc.)
* Integrates with most programming languages (Java, PHP, .NET, ASP, Ruby, etc.)
* Runs on workstations or servers

Τρεις εκδόσεις της οθόνης, ξύστρα:

* Enterprise: The most feature-rich edition of screen-scraper. All capabilities are enabled.
* Professional: Designed to be capable of handling most common scraping projects.
* Basic: Works great for simple projects, but not nearly as many features as its two older brothers.
Απαντήθηκε 16/08/2009 στις 21:56
πηγή χρήστη

ψήφοι
7

Θα ήθελα πρώτα να μάθετε αν η τοποθεσία (ες) στην εν λόγω παροχή ενός εξυπηρετητή API ή Ροές RSS για πρόσβαση στα δεδομένα που χρειάζεστε.

Απαντήθηκε 05/08/2008 στις 22:11
πηγή χρήστη


ψήφοι
5

Είχα κάποια επιτυχία με HtmlUnit , σε Java. Είναι ένα απλό πλαίσιο για τη συγγραφή δοκιμές μονάδα web UI, αλλά εξίσου χρήσιμη για την HTML απόξεση.

Απαντήθηκε 31/08/2008 στις 13:09
πηγή χρήστη

ψήφοι
5

Μια άλλη επιλογή για Perl θα ήταν Web :: Ξύστρα η οποία βασίζεται σε ρουμπινιού Scrapi . Με λίγα λόγια, με ωραία και περιεκτική σύνταξη, μπορείτε να πάρετε ένα ισχυρό ξύστρα απευθείας σε δομές δεδομένων.

Απαντήθηκε 26/08/2008 στις 23:46
πηγή χρήστη

ψήφοι
5

Το ξύσιμο Υπερχείλιση στοίβας είναι ιδιαίτερα εύκολη με παπούτσια και Hpricot .

require 'hpricot'

Shoes.app :title => "Ask Stack Overflow", :width => 370 do
  SO_URL = "http://stackoverflow.com"
  stack do
    stack do
      caption "What is your question?"
      flow do
        @lookup = edit_line "stackoverflow", :width => "-115px"
        button "Ask", :width => "90px" do
          download SO_URL + "/search?s=" + @lookup.text do |s|
            doc = Hpricot(s.response.body)
            @rez.clear()
            (doc/:a).each do |l|
              href = l["href"]
              if href.to_s =~ /\/questions\/[0-9]+/ then
                @rez.append do
                  para(link(l.inner_text) { visit(SO_URL + href) })
                end
              end
            end
            @rez.show()
          end
        end
      end
    end
    stack :margin => 25 do
      background white, :radius => 20
      @rez = stack do
      end
    end
    @rez.hide()
  end
end
Απαντήθηκε 22/08/2008 στις 11:20
πηγή χρήστη

ψήφοι
4

Υπάρχει αυτή η λύση είναι πολύ: Netty httpclient

Απαντήθηκε 11/05/2011 στις 19:28
πηγή χρήστη

ψήφοι
4

Ένα άλλο εργαλείο για .NET είναι MhtBuilder

Απαντήθηκε 13/02/2009 στις 13:58
πηγή χρήστη

ψήφοι
4

Αν και έχει σχεδιαστεί για .NET web-δοκιμές, έχω χρησιμοποιήσει το WatiN πλαίσιο για το σκοπό αυτό. Δεδομένου ότι είναι DOM-based, είναι αρκετά εύκολο να συλλάβει HTML, κείμενο ή εικόνες. Recentely, το χρησιμοποίησα για να πετάξει μια λίστα με συνδέσμους από MediaWiki ερώτημα namespace Όλες οι σελίδες σε ένα φύλλο Excel. Ο ακόλουθος VB.NET κώδικα fragement είναι αρκετά αργό, αλλά λειτουργεί.


Sub GetLinks(ByVal PagesIE As IE, ByVal MyWorkSheet As Excel.Worksheet)

    Dim PagesLink As Link
    For Each PagesLink In PagesIE.TableBodies(2).Links
        With MyWorkSheet
            .Cells(XLRowCounterInt, 1) = PagesLink.Text
            .Cells(XLRowCounterInt, 2) = PagesLink.Url
        End With
        XLRowCounterInt = XLRowCounterInt + 1
    Next
End Sub
Απαντήθηκε 27/08/2008 στις 10:43
πηγή χρήστη

ψήφοι
4

Έχω χρησιμοποιήσει Όμορφη Σούπα πολύ με την Python. Είναι πολύ καλύτερα από ό, τι ο τακτικός έλεγχος της έκφρασης, επειδή λειτουργεί όπως η χρησιμοποίηση του DOM , ακόμα και αν η HTML είναι κακογραμμένο. Μπορείτε να βρείτε γρήγορα τις ετικέτες HTML και κείμενο με απλούστερη σύνταξη από κανονικές εκφράσεις. Μόλις βρείτε ένα στοιχείο, μπορείτε να μετακινηθείτε πάνω του και τα παιδιά του, η οποία είναι πιο χρήσιμο για την κατανόηση του περιεχομένου σε κώδικα από ό, τι με τις συνήθεις εκφράσεις. Μακάρι να υπήρχε Όμορφη Σούπα χρόνια πριν, όταν είχα να κάνω πολλά screenscraping - αυτό θα μου έσωσε πολύ χρόνο και κεφαλαλγία από την δομή HTML ήταν τόσο κακή, πριν οι άνθρωποι άρχισαν την επικύρωση αυτή.

Απαντήθηκε 22/08/2008 στις 14:58
πηγή χρήστη

ψήφοι
4

Χρησιμοποιώ Hpricot σε Ruby. Για παράδειγμα αυτό είναι ένα απόσπασμα κώδικα που μπορώ να χρησιμοποιήσω για να ανακτήσετε όλους τους τίτλους βιβλίων από τις έξι σελίδες του λογαριασμού μου HireThings (δεδομένου ότι δεν φαίνεται να παρέχουν μία σελίδα με αυτές τις πληροφορίες):

pagerange = 1..6
proxy = Net::HTTP::Proxy(proxy, port, user, pwd)
proxy.start('www.hirethings.co.nz') do |http|
  pagerange.each do |page|
    resp, data = http.get "/perth_dotnet?page=#{page}" 
    if resp.class == Net::HTTPOK
      (Hpricot(data)/"h3 a").each { |a| puts a.innerText }
    end
  end
end 

Είναι λίγο πολύ ολοκληρωθεί. Το μόνο που έρχεται πριν από αυτό είναι οι εισαγωγές βιβλιοθήκη και οι ρυθμίσεις για proxy μου.

Απαντήθηκε 06/08/2008 στις 06:57
πηγή χρήστη

ψήφοι
3

Λοιπόν, αν θέλετε να γίνει από την πλευρά του πελάτη, χρησιμοποιώντας μόνο ένα πρόγραμμα περιήγησης που έχετε jcrawl.com . Αφού σχεδιαστεί υπηρεσία διάλυσης σας από τη διαδικτυακή εφαρμογή ( http://www.jcrawl.com/app.html ), το μόνο που χρειάζεται να προσθέσετε το script που έχει δημιουργηθεί σε μια σελίδα HTML για να αρχίσετε να χρησιμοποιείτε το / την παρουσίαση των δεδομένων σας.

Όλη η λογική διάλυσης συμβαίνει στο πρόγραμμα περιήγησης μέσω JavaScript. Ελπίζω να σας φανεί χρήσιμο. Κάντε κλικ σε αυτό το σύνδεσμο για ένα ζωντανό παράδειγμα που εξάγει η τελευταία νέα από το Yahoo τένις .

Απαντήθηκε 29/10/2012 στις 16:59
πηγή χρήστη

ψήφοι
3

Οι εφαρμογές του αλγορίθμου ανάλυσης HTML5 : html5lib (Python, Ruby), Validator.nu HTML Parser (Java, JavaScript? C ++ σε εξέλιξη), βαβούρα (C), Twintsam (C #? Επερχόμενες).

Απαντήθηκε 09/10/2008 στις 21:53
πηγή χρήστη

ψήφοι
3

Θα είναι ένας ανόητος να μην χρησιμοποιήσει Perl .. Εδώ έρχονται οι φλόγες ..

Οστών επάνω στις παρακάτω ενότητες και Ginsu οποιαδήποτε ξύστε γύρω.

use LWP
use HTML::TableExtract
use HTML::TreeBuilder
use HTML::Form
use Data::Dumper
Απαντήθηκε 17/09/2008 στις 13:56
πηγή χρήστη

ψήφοι
3

Στην Java, μπορείτε να χρησιμοποιήσετε TagSoup .

Απαντήθηκε 24/08/2008 στις 11:32
πηγή χρήστη

ψήφοι
3

Έχω χρησιμοποιήσει LWP και HTML :: TreeBuilder με Perl και έχουν βρει τους πολύ χρήσιμη.

LWP (μικρή για libwww-perl) σας επιτρέπει να συνδεθείτε σε ιστοσελίδες και ξύστε το HTML, μπορείτε να πάρετε τη μονάδα εδώ και το βιβλίο O'Reilly φαίνεται να είναι σε απευθείας σύνδεση εδώ .

TreeBuilder σας επιτρέπει να δημιουργήσετε ένα δέντρο από την HTML και την τεκμηρίωση και την πηγή είναι διαθέσιμα σε HTML :: TreeBuilder - Αναλυτής που χτίζει ένα δέντρο σύνταξη HTML .

Μπορεί να υπάρχουν πολύ βαριά ανύψωση εξακολουθούν να κάνει με κάτι σαν αυτή την προσέγγιση, όμως. Δεν έχω κοίταξε την ενότητα Mechanize πρότεινε μια άλλη απάντηση, γι 'αυτό μπορεί κάλλιστα να το κάνουμε αυτό.

Απαντήθηκε 17/08/2008 στις 15:13
πηγή χρήστη

ψήφοι
2

Μου αρέσει η λειτουργία του Google Φύλλα ImportXML (URL, XPath).

Θα επαναλάβω τα κύτταρα κάτω από τη στήλη, αν έκφραση XPath σας επιστρέφει περισσότερες από μία τιμές.

Μπορείτε να έχετε έως και 50 importxml()λειτουργίες σε ένα υπολογιστικό φύλλο.

Web Plugin RapidMiner είναι επίσης πολύ εύκολο στη χρήση. Μπορεί να κάνει δημοσιεύσεις, δέχεται cookies και να ρυθμίσετε το χρήστη-πράκτορα .

Απαντήθηκε 22/07/2010 στις 05:31
πηγή χρήστη

ψήφοι
2

Έχω, επίσης, είχε μεγάλη επιτυχία με τη χρήση Aptana του Jaxer + jQuery για να αναλύσει τις σελίδες. Δεν είναι τόσο γρήγορα ή «σενάριο-όπως» στη φύση, αλλά jQuery επιλογείς + πραγματικό JavaScript / DOM είναι μια ζωή στην πιο περίπλοκη (ή ακατάλληλη) σελίδες.

Απαντήθηκε 19/11/2008 στις 20:11
πηγή χρήστη

ψήφοι
2

Είχα ανάμεικτα αποτελέσματα στην ΝΕΤ χρησιμοποιώντας SgmlReader που αρχικά ξεκίνησε από τον Chris Lovett και φαίνεται να έχουν ενημερωθεί από MindTouch .

Απαντήθηκε 27/08/2008 στις 19:49
πηγή χρήστη

ψήφοι
2

Πιθανόν να έχετε όσο ήδη, αλλά νομίζω ότι αυτό είναι αυτό που προσπαθούμε να κάνουμε:

from __future__ import with_statement
import re, os

profile = ""

os.system('wget --no-cookies --header "Cookie: soba=(SeCreTCODe)" http://stackoverflow.com/users/30/myProfile.html')
with open("myProfile.html") as f:
    for line in f:
        profile = profile + line
f.close()
p = re.compile('summarycount">(\d+)</div>') #Rep is found here
print p
m = p.search(profile)
print m
print m.group(1)
os.system("espeak \"Rep is at " + m.group(1) + " points\""
os.remove("myProfile.html")
Απαντήθηκε 05/08/2008 στις 23:58
πηγή χρήστη

ψήφοι
1

Κάνω πολλά προηγμένα web ξύνοντας έτσι ήθελαν να έχουν τον πλήρη έλεγχο πάνω από το stack μου και να κατανοήσουν τους περιορισμούς. Αυτή η βιβλιοθήκη webscraping είναι το αποτέλεσμα.

Απαντήθηκε 12/04/2011 στις 01:20
πηγή χρήστη

ψήφοι
1

Έχω χρησιμοποιήσει Feedity - http://feedity.com για ορισμένες από τις εργασίες απόξεσης (και μετατροπή σε RSS feeds) στη βιβλιοθήκη μου. Λειτουργεί καλά για τους περισσότερους ιστοσελίδες.

Απαντήθηκε 01/12/2010 στις 06:28
πηγή χρήστη

ψήφοι
1

Η πρόσφατη ομιλία του Dav Γυαλί Καλώς ήρθατε στην ζούγκλα! (YUIConf 2011 Έναρξη Keynote) δείχνει πώς μπορείτε να χρησιμοποιήσετε YUI 3 για Node.js να κάνει clientside που μοιάζει με τον προγραμματισμό (με DOM επιλογείς, αντί της επεξεργασίας εγχόρδων) στο διακομιστή. Είναι πολύ εντυπωσιακό.

Απαντήθηκε 22/11/2010 στις 18:04
πηγή χρήστη

ψήφοι
1

Για πιο σύνθετες εφαρμογές απόξεση, θα ήθελα να συστήσω στο διαδίκτυο ξύστρα IRobotSoft. Πρόκειται για ένα ειδικό ελεύθερο λογισμικό για την απόξεση οθόνη. Έχει μια ισχυρή γλώσσα ερωτημάτων για σελίδες HTML, και παρέχει ένα πολύ απλό interface καταγραφής web που θα σας απελευθερώσει από πολλές προσπάθειες προγραμματισμού.

Απαντήθηκε 17/05/2010 στις 16:58
πηγή χρήστη

ψήφοι
1

Scrubyt χρησιμοποιεί Ruby και Hpricot να κάνει ωραίο και εύκολο web απόξεση. Έγραψα μια ξύστρα για τη βιβλιοθήκη υπηρεσία πανεπιστημίου μου με τη χρήση αυτή σε περίπου 30 λεπτά.

Απαντήθηκε 25/08/2008 στις 13:02
πηγή χρήστη

ψήφοι
1

Κανονικές εκφράσεις λειτουργεί αρκετά καλά για HTML απόξεση καθώς ;-) Αν, μετά την εξέταση Όμορφη σούπα, μπορώ να καταλάβω γιατί αυτό θα ήταν ένα πολύτιμο εργαλείο.

Απαντήθηκε 05/08/2008 στις 22:29
πηγή χρήστη

ψήφοι
0

Όταν πρόκειται για την εξαγωγή δεδομένων από ένα έγγραφο HTML στην πλευρά του διακομιστή, Node.js είναι μια φανταστική επιλογή. Έχω χρησιμοποιήσει με επιτυχία δύο ενότητες που ονομάζεται αιτήματος και ζήτω .

Μπορείτε να δείτε ένα παράδειγμα πώς λειτουργεί εδώ .

Απαντήθηκε 10/05/2013 στις 19:28
πηγή χρήστη

ψήφοι
0

Έκανα μια πολύ ωραία βιβλιοθήκη Εργαλεία Internet για το web απόξεση.

Η ιδέα είναι να ταιριάζει με ένα πρότυπο κατά της ιστοσελίδας, η οποία θα εξάγει όλα τα δεδομένα από τη σελίδα και να επικυρώνει αν η δομή της σελίδας είναι αμετάβλητη.

Έτσι, μπορείτε να πάρετε μόνο το HTML της ιστοσελίδας που θέλετε να επεξεργαστείτε, να καταργήσετε όλα τα δυναμικά ή άσχετο περιεχόμενο και να σχολιάσετε τα ενδιαφέροντα μέρη.

Για παράδειγμα, το HTML για μια νέα ερώτηση στη σελίδα ευρετηρίου stackoverflow.com είναι:

<div id="question-summary-11326954" class="question-summary narrow">

    <!-- skipped, this is getting too long -->

    <div class="summary">

        <h3><a title="Some times my tree list have vertical scroll ,then I scrolled very fast and the tree list shivered .Have any solution for this.
" class="question-hyperlink" href="/questions/11326954/about-scroll-bar-issue-in-tree">About Scroll bar issue in Tree</a></h3>

    <!-- skipped -->

    </div>
</div>

Έτσι, μπορείτε απλά αφαιρέστε αυτό το συγκεκριμένο id, τον τίτλο και την περίληψη, για να δημιουργήσετε ένα πρότυπο που θα διαβάσετε όλα τα νέα ερωτήματα στον τίτλο, περίληψη, σύνδεση πίνακες:

 <t:loop>
   <div class="question-summary narrow">
     <div class="summary">
       <h3>
          <a class="question-hyperlink">
            {title:=text(), summary:=@title, link:=@href}
          </a>
       </h3>
     </div>
   </div>
 </t:loop>

Και φυσικά υποστηρίζει, επίσης, τις βασικές τεχνικές, CSS 3 επιλογείς, XPath 2 και XQuery 1 εκφράσεις.

Το μόνο πρόβλημα είναι ότι ήμουν τόσο ηλίθιος για να το κάνει δωρεάν Pascal βιβλιοθήκη. Υπάρχει όμως και γλώσσα ανεξάρτητη ιστοσελίδα demo .

Απαντήθηκε 04/07/2012 στις 11:43
πηγή χρήστη

ψήφοι
0

Για εκείνους που θα προτιμούσαν ένα γραφικό εργαλείο ροής εργασιών, RapidMiner (ΕΛΛΑΚ) έχει ένα ωραίο web crawling και απόξεση εγκατάσταση.

Εδώ είναι μια σειρά από βίντεο:

http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html

Απαντήθηκε 04/04/2011 στις 23:44
πηγή χρήστη

ψήφοι
-1

SharpQuery

Είναι βασικά jQuery για C #. Εξαρτάται από HTML Agility Pack για την ανάλυση του HTML.

Απαντήθηκε 01/12/2010 στις 06:41
πηγή χρήστη

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more