Heim > Artikel > Web-Frontend > Was ist HTMLparser?
htmlparser ist eine reine HTML-Parsing-Bibliothek, die nicht von anderen Java-Bibliotheksdateien abhängt. Sie wird hauptsächlich zum Transformieren oder Extrahieren von HTML verwendet und kann als Web verstanden werden Tool zur Erfassung von Seiteninformationen.
Die Betriebsumgebung dieses Tutorials: Windows 10-System, HTML5-Version, Dell G3-Computer.
Was bedeutet „HTMLParser“?
HTMLParser ist eine rein in Java geschriebene HTML-Analysebibliothek, die nicht von anderen Java-Bibliotheksdateien abhängt und hauptsächlich zum Transformieren oder Extrahieren von HTML verwendet wird. Es kann HTML mit Höchstgeschwindigkeit und ohne Fehler analysieren. Die neueste Version von htmlparser ist jetzt 2.1. Man kann ohne Übertreibung sagen, dass htmlparser derzeit das beste Tool zum Parsen und Analysieren von HTML ist.
HTML Parser ist eine Java-Bibliothek zum linearen oder verschachtelten Parsen von HTML. Es wird hauptsächlich zur Konvertierung oder Extraktion verwendet und bietet Filter, Besucher, benutzerdefinierte Tags und benutzerfreundliche JavaBeans. Es ist ein schnelles, leistungsstarkes und gut getestetes Paket.
Die beiden grundlegenden Anwendungsfälle, die vom Parser verarbeitet werden, sind Extraktion und Transformation (der Syntheseanwendungsfall, bei dem eine HTML-Seite von Grund auf erstellt wird, wird am besten von anderen Tools verarbeitet, die näher an der Datenquelle liegen). Während sich frühere Versionen auf das Extrahieren von Daten aus Webseiten konzentrierten, bietet Version 1.4 von HTMLParser wesentliche Verbesserungen bei der Konvertierung von Webseiten, der Vereinfachung der Erstellung und Bearbeitung von Tags sowie der wörtlichen Ausgabe der toHtml()-Methode.
Um HTMLParser verwenden zu können, müssen Sie im Allgemeinen in der Lage sein, Code in der Programmiersprache Java zu schreiben. Obwohl einige Beispielprogramme bereitgestellt werden, die nützlich sein können, müssen (oder möchten) Sie höchstwahrscheinlich Ihre eigenen erstellen oder die bereitgestellten Programme ändern, um sie an Ihre beabsichtigte Anwendung anzupassen.
Um diese Bibliothek verwenden zu können, müssen Sie beim Kompilieren und Ausführen htmllexer.jar oder htmlparser.jar zu Ihrem Klassenpfad hinzufügen. htmllexer.jar bietet linearen, flachen und sequentiellen Low-Level-Zugriff auf allgemeine Zeichenfolgen-, Kommentar- und Beschriftungsknoten auf der Seite. htmlparser.jar, das Klassen in htmllexer.jar enthält, bietet Zugriff auf Seiten als verschachtelte, unterscheidende Markup-Sequenzen, die Zeichenfolgen, Kommentare und andere Markup-Knoten enthalten. Daher kann die Ausgabe des Aufrufs der Lexer-Methode nextNode() wie folgt aussehen:
Die Ausgabe des Parsers NodeIterator verschachtelt die Tags als untergeordnete Elemente von ,
(hier durch Einrückung angezeigt). ):Der Parser versucht, die öffnenden und schließenden Tags auszugleichen, um die Struktur der Seite darzustellen, während der Lexer die Knoten einfach ausspuckt. Wenn Ihre Anwendung nur geringe Kenntnisse der Seitenstruktur erfordert und sich hauptsächlich mit einem einzelnen unabhängigen Knoten befasst, sollten Sie die Verwendung eines einfachen Lexers in Betracht ziehen. Wenn Ihre Anwendung jedoch die verschachtelte Struktur der Seite verstehen muss, z. B. Verarbeitungstabellen, möchten Sie möglicherweise einen vollständigen Parser verwenden.
Empfohlenes Tutorial: „HTML-Video-Tutorial“
Das obige ist der detaillierte Inhalt vonWas ist HTMLparser?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!