So analysieren Sie HTML mit lxml-HTML-Tutorial-php.cn

Heim

Web-Frontend

HTML-Tutorial

So analysieren Sie HTML mit lxml

高洛峰

Mar 12, 2017 pm 05:51 PM

In diesem Artikel wird die Methode zum Parsen von HTML mit lxml vorgestellt.

Demonstrieren Sie zunächst ein Codebeispiel zum Abrufen eines Seitenlinks:

#coding=utf-8
from lxml import etree
html = &#39;&#39;&#39;
<html>
　　<head>
　　　　<meta name="content-type" content="text/html; charset=utf-8" />
　　　　<title>友情链接查询 - 站长工具</title>
　　　　<!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->
　　　　<meta name="Keywords" content="友情链接查询" />
　　　　<meta name="Description" content="友情链接查询" />
　　</head>
　　<body>
　　　　<h1 id="Top-nbsp-News">Top News</h1>
　　　　<p style="font-size: 200%">World News only on this page</p>
　　　　Ah, and here&#39;s some more text, by the way.
　　　　<p>... and this is a parsed fragment ...</p>
　　　　<a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a> 
　　　　<a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a> 
　　　　<a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a> 
　　　　<a href="http://game.3533.com/game/" target="_blank">手机游戏</a>
　　　　<a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>
　　　　<a href="http://www.4399.com/" target="_blank">4399小游戏</a> 
　　　　<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>
　　</body>
</html>
&#39;&#39;&#39;
page = etree.HTML(html.lower().decode(&#39;utf-8&#39;))
hrefs = page.xpath(u"//a")
for href in hrefs:
　　print href.attrib

Das gedruckte Ergebnis ist:

{'href': 'http://www.cydf.org.cn/', 'target': '_blank', 'rel': 'nofollow'}
{'href': 'http://www.4399.com/flash/32979.htm', 'target': '_blank'}
{'href': 'http://www.4399 .com /flash/35538.htm', 'target': '_blank'}
{'href': 'http://game.3533.com/game/', 'target': '_blank'}
{'href': 'http://game.3533.com/tupian/', 'target': '_blank'}
{'href': 'http://www.4399.com/' , ' target': '_blank'}
{'href': 'http://www.91wan.com/', 'target': '_blank'}

Wenn Sie < ;/a>Der Inhalt zwischen

for href in hrefs:

　print href.text

Das Ergebnis ist:

Youth Development Foundation
Rock Kingdom
Aola Star
Handyspiel
Handyhintergrund
4399 Minispiel
91wan-Spiel

Dinge, die Sie vor der Verwendung von lxml beachten sollten: Stellen Sie zunächst sicher, dass der HTML-Code mit utf-8 dekodiert wurde, d. h. code = html.decode('utf-8', 'ignore'), andernfalls treten Analysefehler auf. Da Chinesisch in utf-8 codiert ist und dann eine Form wie „/u2541“ annimmt, geht lxml davon aus, dass das Tag endet, wenn es auf „/“ trifft.

XPATH verwendet grundsätzlich eine verzeichnisbaumartige Methode, um den Pfad im XML-Dokument zu beschreiben. Verwenden Sie beispielsweise „/“ als Trennung zwischen oberer und unterer Ebene. Das erste „/“ stellt den Wurzelknoten des Dokuments dar (beachten Sie, dass es sich nicht auf den äußersten Tag-Knoten des Dokuments bezieht, sondern auf das Dokument selbst). Bei einer HTML-Datei sollte der äußerste Knoten beispielsweise „/html“ sein.

Um ein bestimmtes HTML-Tag zu finden, können Sie einen absoluten Pfad ähnlich dem Dateipfad verwenden, z. B. page.xpath(u"/html/body/p") Finden Sie den Körperknoten. Suchen Sie alle p-Tags. Sie können auch einen relativen Pfad verwenden, der dem Dateipfad ähnelt. Sie können ihn wie folgt verwenden: page.xpath(u"//p"). Dadurch werden alle p-Tags im Ganzen gefunden HTML-Code:

Weltnachrichten nur auf dieser Seite

　　Ah, und hier ist übrigens noch etwas Text.
　　

.. und dies ist ein analysiertes Fragment ...

Hinweis: XPATH gibt nicht unbedingt den einzigen Knoten zurück, sondern alle Knoten, die die Bedingungen erfüllen. Wie oben gezeigt, wird es herausgenommen, solange es sich um das p-Tag im Körper handelt, unabhängig davon, ob es sich um den Knoten der ersten, zweiten oder dritten Ebene des Körpers handelt.

Wenn Sie den Umfang weiter eingrenzen und „

World News only on this page

“ direkt finden möchten, was sollten Sie tun? Dies erfordert das Hinzufügen von Filterbedingungen. Die Filtermethode besteht darin, „[““]“ zum Hinzufügen von Filterbedingungen zu verwenden. Es gibt eine Filtersyntax in lxml:

　p = page.xpath(u"/html/body/p[@style='font-size: 200%']")

Oder : p = page.xpath(u"//p[@style='font-size:200%']")

Auf diese Weise wird der p-Knoten mit dem Stil „font-size:200%“ im Körper wird herausgenommen. Hinweis: Diese p-Variable ist eine Liste von lxml.etree._Element-Objekten. Das Ergebnis von p[0].text ist nur Weltnachrichten auf dieser Seite. das heißt, der Wert zwischen den Tags; p Das Ergebnis von [0].values() ist Schriftgröße: 200 %, also alle -Attribut--Werte. Unter diesen stellt @style den Attributstil dar. Ebenso können Sie auch @name, @id, @value, @href, @src, @class....

verwenden So etwas gibt es im Tag nicht. Was tun mit Attributen? Dann können Sie text(), position() und andere -Funktionen zum Filtern verwenden. Die Funktion text() bedeutet, den im Knoten enthaltenen Text abzurufen. Beispiel:

hello

world

, verwenden Sie „p[text()='hello']“, um das p zu erhalten, und world ist der text() von p . Die Funktion position() bedeutet, die Position des Knotens zu ermitteln. „li[position()=2]“ bedeutet beispielsweise, den zweiten li-Knoten zu erhalten, der auch als „li[2]“ weggelassen werden kann.

Sie sollten jedoch auf die Reihenfolge der numerischen Positionierung und Filterbedingungen achten. „ul/li[5][@name='hello']“ bedeutet beispielsweise, dass das fünfte Element li unter ul genommen wird und sein Name hello sein muss, sonst wird es leer zurückgegeben. Wenn Sie „ul/li[@name=‘hello‘][5]“ verwenden, ist die Bedeutung anders. Es bedeutet, den fünften Li-Knoten mit dem Namen „hello“ unter ul zu finden.

　　此外，“*”可以代替所有的节点名，比如用"/html/body/*/span"可以取出body下第二级的所有span，而不管它上一级是p还是p或是其它什么东东。

而 “descendant::”前缀可以指代任意多层的中间节点，它也可以被省略成一个“/”。比如在整个HTML文档中查找id为“leftmenu”的 p，可以用“/descendant::p[@id='leftmenu']”，也可以简单地使用“ //p[@id='leftmenu']”。

text = page.xpath(u"/descendant::*[text()]")表示任意多层的中间节点下任意标签之间的内容，也即实现蜘蛛抓取页面内容功能。以下内容使用text属性是取不到的：

<p class="news">
    1. <b>无流量站点清理公告</b>  2013-02-22<br />
    取不到的内容
    </p>
    <p class="news">
    2. <strong>无流量站点清理公告</strong>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 3. <span>无流量站点清理公告</span>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 4. <u>无流量站点清理公告</u>  2013-02-22<br />
取不到的内容
</p>

这些“取不到的内容”使用这个是取不到的。怎么办呢？别担心，lxml还有一个属性叫做“tail”，它的意思是结束节点前面的内容，也就是说在“
”与“

”之间的内容。它的源码里面的意思是“text after end tag”

　　至于“following-sibling::”前缀就如其名所说，表示同一层的下一个节点。"following-sibling::*"就是任意下一个节点，而“following-sibling::ul”就是下一个ul节点。

　　如果script与style标签之间的内容影响解析页面，或者页面很不规则，可以使用lxml.html.clean模块。模块 lxml.html.clean 提供一个Cleaner 类来清理 HTML 页。它支持删除嵌入或脚本内容、特殊标记、 CSS 样式注释或者更多。

　　cleaner = Cleaner(style=True, scripts=True,page_structure=False, safe_attrs_only=False)

　　print cleaner.clean_html(html)

　　注意，page_structure,safe_attrs_only为False时保证页面的完整性，否则，这个Cleaner会把你的html结构与标签里的属性都给清理了。使用Cleaner类要十分小心，小心擦枪走火。

　　忽略大小写可以：

　　page = etree.HTML(html)
　　keyword_tag = page.xpath("//meta[translate(@name,'ABCDEFGHJIKLMNOPQRSTUVWXYZ', 'abcdefghjiklmnopqrstuvwxyz')='keywords']")

Das obige ist der detaillierte Inhalt vonSo analysieren Sie HTML mit lxml. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Die Zukunft von HTML, CSS und JavaScript: WebentwicklungstrendsApr 19, 2025 am 12:02 AM

Die zukünftigen Trends von HTML sind Semantik und Webkomponenten, die zukünftigen Trends von CSS sind CSS-in-JS und CssShudini, und die zukünftigen Trends von JavaScript sind WebAssembly und serverlos. 1. HTML -Semantik verbessern die Zugänglichkeits- und SEO -Effekte sowie Webkomponenten die Entwicklungseffizienz, aber der Browserkompatibilität sollte die Aufmerksamkeit geschenkt werden. 2. CSS-in-JS verbessert die Flexibilität des Stilmanagements, kann jedoch die Dateigröße erhöhen. CssShudini ermöglicht den direkten Betrieb des CSS -Renderings. 3.Webassembly optimiert die Browser -Anwendungsleistung, verfügt jedoch über eine steile Lernkurve, und serverloses vereinfacht die Entwicklung, erfordert jedoch eine Optimierung von Kaltstartproblemen.

HTML: Die Struktur, CSS: Der Stil, JavaScript: Das VerhaltenApr 18, 2025 am 12:09 AM

Die Rollen von HTML, CSS und JavaScript in der Webentwicklung sind: 1. HTML definiert die Webseitenstruktur, 2. CSS steuert den Webseitenstil, und 3. JavaScript fügt ein dynamisches Verhalten hinzu. Zusammen bauen sie den Rahmen, die Ästhetik und die Interaktivität moderner Websites auf.

Die Zukunft von HTML: Evolution und Trends im WebdesignApr 17, 2025 am 12:12 AM

Die Zukunft von HTML ist voller unendlicher Möglichkeiten. 1) Neue Funktionen und Standards umfassen mehr semantische Tags und die Beliebtheit von Webcomponenten. 2) Der Webdesign -Trend entwickelt sich weiterhin für reaktionsschnelles und zugängliches Design. 3) Die Leistungsoptimierung verbessert die Benutzererfahrung durch reaktionsschnelle Bildlade- und faulen Ladetechnologien.

HTML vs. CSS vs. JavaScript: Ein vergleichender ÜberblickApr 16, 2025 am 12:04 AM

Die Rollen von HTML, CSS und JavaScript in der Webentwicklung sind: HTML ist für die Inhaltsstruktur verantwortlich, CSS ist für den Stil verantwortlich und JavaScript ist für dynamisches Verhalten verantwortlich. 1. HTML definiert die Webseitenstruktur und den Inhalt durch Tags, um die Semantik zu gewährleisten. 2. CSS steuert den Webseitenstil über Selektoren und Attribute, um es schön und einfach zu lesen. 3. JavaScript steuert das Verhalten von Webseiten über Skripte, um dynamische und interaktive Funktionen zu erzielen.

HTML: Ist es eine Programmiersprache oder etwas anderes?Apr 15, 2025 am 12:13 AM

HtmlisnotaprogrammingLanguage; itiSamarkuplanguage.1) htmlstructuresandFormatswebcontentuses.2) itWorkswithCSSForstylingandjavaScriptForinteraktivität, EnhancingWebDevelopment.

HTML: Erstellen der Struktur von WebseitenApr 14, 2025 am 12:14 AM

HTML ist der Eckpfeiler der Erstellung von Webseitenstruktur. 1. HTML definiert die Inhaltsstruktur und die Semantik und Verwendung usw. Tags. 2. Stellen Sie semantische Marker wie usw. zur Verfügung, um den SEO -Effekt zu verbessern. 3. Um die Benutzerinteraktion durch Tags zu verwirklichen, achten Sie auf die Verifizierung der Form. 4. Verwenden Sie fortschrittliche Elemente wie in Kombination mit JavaScript, um dynamische Effekte zu erzielen. 5. Zu den häufigen Fehlern gehören nicht abgegebene Bezeichnungen und nicht geeignete Attributwerte, und Überprüfungstools sind erforderlich. 6. Optimierungsstrategien umfassen das Reduzieren von HTTP -Anforderungen, die Komprimierung von HTML, die Verwendung semantischer Tags usw.

Von Text zu Websites: Die Kraft von HTMLApr 13, 2025 am 12:07 AM

HTML ist eine Sprache, mit der Webseiten erstellt, die Webseitenstruktur und -inhalt über Tags und Attribute definiert werden. 1) HTML organisiert die Dokumentstruktur über Tags, wie z. B.. 2) Der Browser analysiert HTML, um das DOM zu erstellen und die Webseite zu rendern. 3) Neue Merkmale von HTML5, wie z. B. Multimedia -Funktionen. 4) Zu den häufigen Fehlern gehören nicht abgestimmte Bezeichnungen und nicht geeignete Attributwerte. 5) Die Optimierungsvorschläge umfassen die Verwendung semantischer Tags und die Reduzierung der Dateigröße.

HTML, CSS und JavaScript verstehen: Ein AnfängerhandbuchApr 12, 2025 am 12:02 AM

WebdevelopmentRelieSonHtml, CSS und JavaScript: 1) HtmlStructuresContent, 2) CSSstylesit und 3) JavaScriptaddssinteraktivität, Bildung von TheBasisofModerernwebexperiences.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vorByDDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vorByDDD

Heiße Werkzeuge

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Dreamweaver CS6

Visuelle Webentwicklungstools

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7563

CakePHP-Tutorial

1385

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten