Maison >interface Web >tutoriel HTML >Comment analyser du HTML avec lxml

Comment analyser du HTML avec lxml

高洛峰
高洛峰original
2017-03-12 17:51:271970parcourir

Cet article présente la méthode d'analyse HTML avec lxml

Démontrez d'abord un exemple de code pour obtenir un lien de page :

#coding=utf-8
from lxml import etree
html = '''
<html>
  <head>
    <meta name="content-type" content="text/html; charset=utf-8" />
    <title>友情链接查询 - 站长工具</title>
    <!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->
    <meta name="Keywords" content="友情链接查询" />
    <meta name="Description" content="友情链接查询" />
  </head>
  <body>
    <h1 class="heading">Top News</h1>
    <p style="font-size: 200%">World News only on this page</p>
    Ah, and here&#39;s some more text, by the way.
    <p>... and this is a parsed fragment ...</p>
    <a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a> 
    <a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a> 
    <a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a> 
    <a href="http://game.3533.com/game/" target="_blank">手机游戏</a>
    <a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>
    <a href="http://www.4399.com/" target="_blank">4399小游戏</a> 
    <a href="http://www.91wan.com/" target="_blank">91wan游戏</a>
  </body>
</html>
&#39;&#39;&#39;
page = etree.HTML(html.lower().decode(&#39;utf-8&#39;))
hrefs = page.xpath(u"//a")
for href in hrefs:
  print href.attrib

Le résultat imprimé est :

{'href' : 'http://www.cydf.org.cn/', 'target' : '_blank', 'rel' : 'nofollow'}
{'href' : 'http://www.4399.com/flash/32979.htm', 'cible' : '_blank'}
{'href' : 'http://www.4399. com /flash/35538.htm', 'cible' : '_blank'>
{'href' : 'http://game.3533.com/game/', 'cible' : '_blank'}
{'href' : 'http://game.3533.com/tupian/', 'target' : '_blank'}
{'href' : 'http://www.4399.com/', ' target' : '_blank'}
{'href' : 'http://www.91wan.com/', 'target' : '_blank'}

Si vous souhaitez obtenird6b83d489fe1db05eec1db068a8d57d8Le contenu entre

pour href dans hrefs :

 print href.text

Le résultat est :

Fondation pour le développement de la jeunesse
Rock Kingdom
Aola Star
Jeux mobiles
Fonds d'écran mobiles
4399 mini-jeux
91wan Games

Choses à noter avant d'utiliser lxml : d'abord Assurez-vous que le code HTML a été décodé par utf-8, c'est-à-dire code = html.decode('utf-8', 'ignore'), sinon des erreurs d'analyse se produiront. Parce que le chinois est codé en utf-8 et devient ensuite une forme comme « /u2541 », lxml considérera que la balise se termine lorsqu'elle rencontre « / ».

XPATH utilise essentiellement une méthode de type arborescence de répertoires pour décrire le chemin dans le document XML. Par exemple, utilisez « / » comme séparation entre les niveaux supérieur et inférieur. Le premier "/" représente le nœud racine du document (notez qu'il ne fait pas référence au nœud de balise le plus externe du document, mais au document lui-même). Par exemple, pour un fichier HTML, le nœud le plus externe doit être "/html".

Pour localiser une certaine balise HTML , vous pouvez utiliser un chemin absolu similaire au chemin du fichier, tel que page.xpath(u"/html/body/p"), qui trouvez le nœud du corps Trouvez toutes les balises p ; vous pouvez également utiliser un chemin relatif similaire au chemin du fichier, vous pouvez l'utiliser comme ceci : page.xpath(u"//p"), il trouvera toutes les balises p dans l'ensemble code html :

  90ce244b5a5321cadd932bf501f122e4Nouvelles du monde uniquement sur cette page94b3e26ee717c64999d7867364b1b4a3
  Ah, et voici un peu plus de texte, au fait.
  e388a4556c0f65e1904146cc1a846bee.. . et ceci est un fragment analysé ...94b3e26ee717c64999d7867364b1b4a3

Remarque : XPATH ne renvoie pas nécessairement le seul nœud, mais tous les nœuds qui remplissent les conditions. Comme indiqué ci-dessus, tant qu'il s'agit de la balise p dans le corps, qu'il s'agisse du nœud de premier niveau, de deuxième niveau ou de troisième niveau du corps, elle sera supprimée.

Si vous souhaitez affiner davantage la portée et localiser directement "90ce244b5a5321cadd932bf501f122e4World News uniquement sur cette page94b3e26ee717c64999d7867364b1b4a3", que devez-vous faire ? Cela nécessite l'ajout de conditions de filtre. La méthode de filtrage consiste à utiliser "[""]" pour ajouter des conditions de filtre. Il existe une syntaxe de filtre dans lxml :

 p = page.xpath(u"/html/body/p[@style='font-size: 200%']")

Ou : p = page.xpath(u"//p[@style='font-size:200%']")

De cette façon, le nœud p avec le style font-size:200% dans le body est supprimé. Remarque : cette p variable est une liste d'objets lxml.etree._Element Le résultat de p[0].text est World News uniquement sur cette page, c'est-à-dire la valeur entre les balises ; p Le résultat de [0].values() est font-size : 200 %, c'est-à-dire toutes les valeurs d'attribut . Parmi eux, @style représente le style d'attribut. De même, vous pouvez également utiliser @name, @id, @value, @href, @src, @class....

If il n'y a rien de tel dans la balise Que faire des attributs ? Ensuite, vous pouvez utiliser text(), position() et d'autres fonctions pour filtrer. La fonction text() permet d'obtenir le texte contenu dans le nœud. Par exemple : e388a4556c0f65e1904146cc1a846beehelloe388a4556c0f65e1904146cc1a846beeworld94b3e26ee717c64999d7867364b1b4a36fb279ad3fd4344cbdd93aac6ad173ac, utilisez "p[text()='hello']" pour obtenir le p, et world est le text() de p . La fonction position() permet d'obtenir la position du nœud. Par exemple, "li[position()=2]" signifie obtenir le deuxième nœud li, qui peut également être omis en tant que "li[2]".

Mais vous devez faire attention à l'ordre de positionnement numérique et aux conditions de filtrage. Par exemple, "ul/li[5][@name='hello']" signifie prendre le cinquième élément li sous ul, et son nom doit être bonjour, sinon il reviendra vide. Mais si vous utilisez "ul/li[@name='hello'][5]", la signification est différente. Cela signifie trouver le cinquième nœud li avec le nom "hello" sous ul.

  此外,“*”可以代替所有的节点名,比如用"/html/body/*/span"可以取出body下第二级的所有span,而不管它上一级是p还是p或是其它什么东东。

而 “descendant::”前缀可以指代任意多层的中间节点,它也可以被省略成一个“/”。比如在整个HTML文档中查找id为“leftmenu”的 p,可以用“/descendant::p[@id='leftmenu']”,也可以简单地使用“ //p[@id='leftmenu']”。

text = page.xpath(u"/descendant::*[text()]")表示任意多层的中间节点下任意标签之间的内容,也即实现蜘蛛抓取页面内容功能。以下内容使用text属性是取不到的:

<p class="news">
    1. <b>无流量站点清理公告</b>  2013-02-22<br />
    取不到的内容
    </p>
    <p class="news">
    2. <strong>无流量站点清理公告</strong>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 3. <span>无流量站点清理公告</span>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 4. <u>无流量站点清理公告</u>  2013-02-22<br />
取不到的内容
</p>

这些“取不到的内容”使用这个是取不到的。怎么办呢?别担心,lxml还有一个属性叫做“tail”,它的意思是结束节点前面的内容,也就是说在“df250b2156c434f3390392d09b1c9563”与“94b3e26ee717c64999d7867364b1b4a3”之间的内容。它的源码里面的意思是“text after end tag”

  至于“following-sibling::”前缀就如其名所说,表示同一层的下一个节点。"following-sibling::*"就是任意下一个节点,而“following-sibling::ul”就是下一个ul节点。

  如果script与style标签之间的内容影响解析页面,或者页面很不规则,可以使用lxml.html.clean模块。模块 lxml.html.clean 提供 一个Cleaner 类来清理 HTML 页。它支持删除嵌入或脚本内容、 特殊标记、 CSS 样式注释或者更多。

  cleaner = Cleaner(style=True, scripts=True,page_structure=False, safe_attrs_only=False)

  print cleaner.clean_html(html)

  注意,page_structure,safe_attrs_only为False时保证页面的完整性,否则,这个Cleaner会把你的html结构与标签里的属性都给清理了。使用Cleaner类要十分小心,小心擦枪走火。

 

  忽略大小写可以:

  page = etree.HTML(html)
  keyword_tag = page.xpath("//meta[translate(@name,'ABCDEFGHJIKLMNOPQRSTUVWXYZ', 'abcdefghjiklmnopqrstuvwxyz')='keywords']")


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn