Comment analyser du HTML avec lxml-tutoriel HTML-php.cn

Maison

interface Web

tutoriel HTML

Comment analyser du HTML avec lxml

高洛峰

Mar 12, 2017 pm 05:51 PM

Cet article présente la méthode d'analyse HTML avec lxml

Démontrez d'abord un exemple de code pour obtenir un lien de page :

#coding=utf-8
from lxml import etree
html = &#39;&#39;&#39;
<html>
　　<head>
　　　　<meta name="content-type" content="text/html; charset=utf-8" />
　　　　<title>友情链接查询 - 站长工具</title>
　　　　<!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->
　　　　<meta name="Keywords" content="友情链接查询" />
　　　　<meta name="Description" content="友情链接查询" />
　　</head>
　　<body>
　　　　<h1 id="Top-nbsp-News">Top News</h1>
　　　　<p style="font-size: 200%">World News only on this page</p>
　　　　Ah, and here&#39;s some more text, by the way.
　　　　<p>... and this is a parsed fragment ...</p>
　　　　<a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a> 
　　　　<a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a> 
　　　　<a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a> 
　　　　<a href="http://game.3533.com/game/" target="_blank">手机游戏</a>
　　　　<a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>
　　　　<a href="http://www.4399.com/" target="_blank">4399小游戏</a> 
　　　　<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>
　　</body>
</html>
&#39;&#39;&#39;
page = etree.HTML(html.lower().decode(&#39;utf-8&#39;))
hrefs = page.xpath(u"//a")
for href in hrefs:
　　print href.attrib

Le résultat imprimé est :

{'href' : 'http://www.cydf.org.cn/', 'target' : '_blank', 'rel' : 'nofollow'}
{'href' : 'http://www.4399.com/flash/32979.htm', 'cible' : '_blank'}
{'href' : 'http://www.4399. com /flash/35538.htm', 'cible' : '_blank'>
{'href' : 'http://game.3533.com/game/', 'cible' : '_blank'}
{'href' : 'http://game.3533.com/tupian/', 'target' : '_blank'}
{'href' : 'http://www.4399.com/', ' target' : '_blank'}
{'href' : 'http://www.91wan.com/', 'target' : '_blank'}

Si vous souhaitez obtenirLe contenu entre

pour href dans hrefs :

　print href.text

Le résultat est :

Fondation pour le développement de la jeunesse
Rock Kingdom
Aola Star
Jeux mobiles
Fonds d'écran mobiles
4399 mini-jeux
91wan Games

Choses à noter avant d'utiliser lxml : d'abord Assurez-vous que le code HTML a été décodé par utf-8, c'est-à-dire code = html.decode('utf-8', 'ignore'), sinon des erreurs d'analyse se produiront. Parce que le chinois est codé en utf-8 et devient ensuite une forme comme « /u2541 », lxml considérera que la balise se termine lorsqu'elle rencontre « / ».

XPATH utilise essentiellement une méthode de type arborescence de répertoires pour décrire le chemin dans le document XML. Par exemple, utilisez « / » comme séparation entre les niveaux supérieur et inférieur. Le premier "/" représente le nœud racine du document (notez qu'il ne fait pas référence au nœud de balise le plus externe du document, mais au document lui-même). Par exemple, pour un fichier HTML, le nœud le plus externe doit être "/html".

Pour localiser une certaine balise HTML , vous pouvez utiliser un chemin absolu similaire au chemin du fichier, tel que page.xpath(u"/html/body/p"), qui trouvez le nœud du corps Trouvez toutes les balises p ; vous pouvez également utiliser un chemin relatif similaire au chemin du fichier, vous pouvez l'utiliser comme ceci : page.xpath(u"//p"), il trouvera toutes les balises p dans l'ensemble code html :

Nouvelles du monde uniquement sur cette page

　 Ah, et voici un peu plus de texte, au fait.
　　

.. . et ceci est un fragment analysé ...

Remarque : XPATH ne renvoie pas nécessairement le seul nœud, mais tous les nœuds qui remplissent les conditions. Comme indiqué ci-dessus, tant qu'il s'agit de la balise p dans le corps, qu'il s'agisse du nœud de premier niveau, de deuxième niveau ou de troisième niveau du corps, elle sera supprimée.

Si vous souhaitez affiner davantage la portée et localiser directement "

World News uniquement sur cette page

", que devez-vous faire ? Cela nécessite l'ajout de conditions de filtre. La méthode de filtrage consiste à utiliser "[""]" pour ajouter des conditions de filtre. Il existe une syntaxe de filtre dans lxml :

　p = page.xpath(u"/html/body/p[@style='font-size: 200%']")

Ou : p = page.xpath(u"//p[@style='font-size:200%']")

De cette façon, le nœud p avec le style font-size:200% dans le body est supprimé. Remarque : cette p variable est une liste d'objets lxml.etree._Element Le résultat de p[0].text est World News uniquement sur cette page, c'est-à-dire la valeur entre les balises ; p Le résultat de [0].values() est font-size : 200 %, c'est-à-dire toutes les valeurs d'attribut . Parmi eux, @style représente le style d'attribut. De même, vous pouvez également utiliser @name, @id, @value, @href, @src, @class....

If il n'y a rien de tel dans la balise Que faire des attributs ? Ensuite, vous pouvez utiliser text(), position() et d'autres fonctions pour filtrer. La fonction text() permet d'obtenir le texte contenu dans le nœud. Par exemple :

hello

world

, utilisez "p[text()='hello']" pour obtenir le p, et world est le text() de p . La fonction position() permet d'obtenir la position du nœud. Par exemple, "li[position()=2]" signifie obtenir le deuxième nœud li, qui peut également être omis en tant que "li[2]".

Mais vous devez faire attention à l'ordre de positionnement numérique et aux conditions de filtrage. Par exemple, "ul/li[5][@name='hello']" signifie prendre le cinquième élément li sous ul, et son nom doit être bonjour, sinon il reviendra vide. Mais si vous utilisez "ul/li[@name='hello'][5]", la signification est différente. Cela signifie trouver le cinquième nœud li avec le nom "hello" sous ul.

　　此外，“*”可以代替所有的节点名，比如用"/html/body/*/span"可以取出body下第二级的所有span，而不管它上一级是p还是p或是其它什么东东。

而 “descendant::”前缀可以指代任意多层的中间节点，它也可以被省略成一个“/”。比如在整个HTML文档中查找id为“leftmenu”的 p，可以用“/descendant::p[@id='leftmenu']”，也可以简单地使用“ //p[@id='leftmenu']”。

text = page.xpath(u"/descendant::*[text()]")表示任意多层的中间节点下任意标签之间的内容，也即实现蜘蛛抓取页面内容功能。以下内容使用text属性是取不到的：

<p class="news">
    1. <b>无流量站点清理公告</b>  2013-02-22<br />
    取不到的内容
    </p>
    <p class="news">
    2. <strong>无流量站点清理公告</strong>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 3. <span>无流量站点清理公告</span>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 4. <u>无流量站点清理公告</u>  2013-02-22<br />
取不到的内容
</p>

这些“取不到的内容”使用这个是取不到的。怎么办呢？别担心，lxml还有一个属性叫做“tail”，它的意思是结束节点前面的内容，也就是说在“
”与“

”之间的内容。它的源码里面的意思是“text after end tag”

　　至于“following-sibling::”前缀就如其名所说，表示同一层的下一个节点。"following-sibling::*"就是任意下一个节点，而“following-sibling::ul”就是下一个ul节点。

　　如果script与style标签之间的内容影响解析页面，或者页面很不规则，可以使用lxml.html.clean模块。模块 lxml.html.clean 提供一个Cleaner 类来清理 HTML 页。它支持删除嵌入或脚本内容、特殊标记、 CSS 样式注释或者更多。

　　cleaner = Cleaner(style=True, scripts=True,page_structure=False, safe_attrs_only=False)

　　print cleaner.clean_html(html)

　　注意，page_structure,safe_attrs_only为False时保证页面的完整性，否则，这个Cleaner会把你的html结构与标签里的属性都给清理了。使用Cleaner类要十分小心，小心擦枪走火。

　　忽略大小写可以：

　　page = etree.HTML(html)
　　keyword_tag = page.xpath("//meta[translate(@name,'ABCDEFGHJIKLMNOPQRSTUVWXYZ', 'abcdefghjiklmnopqrstuvwxyz')='keywords']")

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comprendre HTML, CSS et JavaScript: un guide pour débutantApr 12, 2025 am 12:02 AM

WebDevelopmentReliesOnHTML, CSS, etjavascript: 1) HTMLSTRUCTURESCONTENT, 2) CSSSTYLESIT, et3) JavascriptAdddsInterActivity, Forming TheasisofmodernweBEBExperiences.

Le rôle de HTML: Structurer le contenu WebApr 11, 2025 am 12:12 AM

Le rôle de HTML est de définir la structure et le contenu d'une page Web via des balises et des attributs. 1. HTML organise le contenu via des balises telles que, ce qui le rend facile à lire et à comprendre. 2. Utilisez des balises sémantiques telles que, etc. pour améliorer l'accessibilité et le référencement. 3. Optimisation du code HTML peut améliorer la vitesse de chargement des pages Web et l'expérience utilisateur.

HTML et code: un examen plus approfondi de la terminologieApr 10, 2025 am 09:28 AM

Htmlisaspecificypeofcodefocusedonconstructringwebcontent, tandis que "code" en général incluse les langues liés à lajavaScriptandpythonforfonctionnality.1) htmldefineswebpagestructureusingtags.2) "Code" enclueSawidererRangeFlanguageForgicandInteract "

HTML, CSS et JavaScript: outils essentiels pour les développeurs WebApr 09, 2025 am 12:12 AM

HTML, CSS et JavaScript sont les trois piliers du développement Web. 1. HTML définit la structure de la page Web et utilise des balises telles que, etc. 2. CSS contrôle le style de page Web, en utilisant des sélecteurs et des attributs tels que la couleur, la taille de la police, etc. 3. JavaScript réalise les effets dynamiques et l'interaction, par la surveillance des événements et les opérations DOM.

Les rôles de HTML, CSS et JavaScript: responsabilités de baseApr 08, 2025 pm 07:05 PM

HTML définit la structure Web, CSS est responsable du style et de la mise en page, et JavaScript donne une interaction dynamique. Les trois exercent leurs fonctions dans le développement Web et construisent conjointement un site Web coloré.

HTML est-il facile à apprendre pour les débutants?Apr 07, 2025 am 12:11 AM

HTML convient aux débutants car il est simple et facile à apprendre et peut rapidement voir les résultats. 1) La courbe d'apprentissage de HTML est fluide et facile à démarrer. 2) Il suffit de maîtriser les balises de base pour commencer à créer des pages Web. 3) Flexibilité élevée et peut être utilisée en combinaison avec CSS et JavaScript. 4) Les ressources d'apprentissage riches et les outils modernes soutiennent le processus d'apprentissage.

Quel est un exemple d'une balise de départ dans HTML?Apr 06, 2025 am 12:04 AM

Anexampleofastartingtaginhtmlis, qui abinginsaparagraph.startingtagsaressentialtinhtmlastheyinitiateelements, définit les éventualités, et la faculté de réduction des pages et de la construction de la création.

Comment utiliser la disposition Flexbox de CSS pour réaliser l'alignement du centrage de l'effet de segmentation des lignes pointillé dans le menu?Apr 05, 2025 pm 01:24 PM

Comment concevoir l'effet de segmentation en pointillés dans le menu? Lors de la conception des menus, il n'est généralement pas difficile d'aligner la gauche et la droite entre le nom et le prix du plat, mais que diriez-vous de la ligne ou du point pointillé au milieu ...

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semainesByDDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus