复杂的HTML解析 003_html/css_WEB-ITnose-html教程-PHP中文网

首页

web前端

html教程

复杂的HTML解析 003_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:49 AM

当我们想要从复杂的网络信息中抽取出我们需要的信息时，不假思索的写出层层抽取的代码是非常不理智的。这样的代码又臭又长，难以阅读，且容易失效。正确的方法是三思而后行，使用正确的技巧方法写出简洁，易懂，扩展性强的代码。重要的事情说三遍：三思而后行，三思而后行，三思而后行### 1.class和id抽取网页的class属性和id属性是非常丰富的，我们可以使用这些属性来抽取信息：例子：```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://pythonscraping.com/pages/warandpeace.html")#网页html代码赋给变量bs0bjbs0bj = BeautifulSoup(html)#返回一个含有class=green属性的列表namelist = bs0bj.findAll("span",{"class":"green"})#遍历输出列表中不含标签的文字。for name in namelist:	print(name.get_text())```.get_text()：把正在处理的html文档中的所有标签都清除，返回一个只包含文字的字符串，一般情况下因尽可能保留标签，在最后情况下使用get_text()。### 2.find（）和finaall（）find（）和finaall（）这两个函数是非常常用的，我们可以用它们找到需要的标签或标签组。函数的格式定义如下：```      findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)```- tag：可以传入一个标签或多个标签的标签组，.findAll({"h1","h2","h3","h4","h5","h6"})- attributes：用一个字典封装的一个标签的若干属性和对应的属性值- recursive：是否递归查找子标签，默认为true，如果设置为False，则只查找一级标签。- text：用来匹配标签的文本内容，不是标签的属性，切记。- limit：限制数量，当为1时相当于find（）函数，设置为n时，显示前n个，按在网页上的顺序排列显示。- keyword：选择具有指定属性的标签。### 3.beautifulsoup对象- BeautifulSoup 对象：前面代码中的bsObj- Tag 对象 ：前面代码中的bsObj.div.h1- NavigableString 对象：标签里的文字- comment 对象：查找html的注释标签, <!--like this one-->### 4.导航树：整个html页面可以简化为一棵树，如下所示：![输入图片说明](https://static.oschina.net/uploads/img/201605/07122511_gnYC.png "在这里输入图片标题")![输入图片说明](https://static.oschina.net/uploads/img/201605/07122527_3gG9.png "在这里输入图片标题")1.处理子标签和后代标签：一般情况下，beautifulsoup总是处理当前标签下的后代标签，如bs0bj.body.h1是处理当前body标签下的第一个h1标签。bs0bj.body.finaAll("img")是找到第一div标签下的索引img列表。如果只想要找到子标签，可以使用.children标签。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)for child in bsObj.find("table",{"id":"giftList"}).children:    print(child)```上面的代码会打印giftlist表格中的索引产品的数据行。使用descendants（）标签可以输出所有的后代标签。2.兄弟标签：使用next_siblings（）函数可以处理兄弟标签。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:print(sibling)```使用兄弟标签会跳过标签自身，因为自身不能当作自己的兄弟，同时兄弟标签只能查找后面的标签，不能查找自身以及前面的兄弟标签。与next_siblings()类似，previous_siblings()函数是查找前面的兄弟节点。同时还有next_siblings()和previous_siblings()函数，它们的作业是返回单个标签。3.父标签使用parent和parents标签可以查找给定标签的父标签或父标签列表。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)print(bsObj.find("img",{"src":"../img/gifts/img1.jpg" }).parent.previous_sibling.get_text())```上面代码的意思是找到给定标签的父标签的前一个兄弟标签中的文字。### 5.正则表达式：正则表达式是非常丰富的，但是上手很简单。可以自己搜索一些教程学习。正则测试：http://www.regexpal.com/### 6.正则表达式与BeautifulSoup正则表达式是非常有用的，举个例子，加入你想要抓取索引的img图片，使用finaall（）得到的结果可能会出乎意料，多了许多隐藏的图片或不相关的图片，此时可以使用正则表达式。我们发现想要获取的图片源代码格式如下：```<img  src="/static/imghwm/default1.png"  data-src="../img/gifts/img3.jpg"  class="lazy" alt="复杂的HTML解析 003_html/css_WEB-ITnose" >```这样我们可以直接通过文件路径来查找信息，```from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport rehtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for image in images:    print(image["src"])```上面的例子使用了正则表达式匹配了以../img/gifts/img开头,以.jpg结尾的图片。结果如下：```../img/gifts/img1.jpg../img/gifts/img2.jpg../img/gifts/img3.jpg../img/gifts/img4.jpg../img/gifts/img6.jpg```### 6.标签属性：对于一个标签对象，可以使用下面代码获得它的全部属性：```myTag.attrs```获得的属性存在一个字典中，可以取出某一个属性```myTag.attrs["href"]```### 7.lambda表达式

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

了解HTML，CSS和JavaScript：初学者指南Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml，CSS和JavaScript：1）HTMLStructuresContent，2）CSSStyleSIT和3）JavaScriptAddSstractivity，形成thebasisofmodernWebemodernWebExexperiences。

HTML的角色：构建Web内容Apr 11, 2025 am 12:12 AM

HTML的作用是通过标签和属性定义网页的结构和内容。1.HTML通过到、等标签组织内容，使其易于阅读和理解。2.使用语义化标签如、等增强可访问性和SEO。3.优化HTML代码可以提高网页加载速度和用户体验。

HTML和代码：仔细观察术语Apr 10, 2025 am 09:28 AM

htmlisaspecifictypefodyfocusedonstructuringwebcontent，而“代码” badlyLyCludEslanguagesLikeLikejavascriptandPytyPythonForFunctionality.1）htmldefineswebpagertuctureduseTags.2）“代码”代码“ code” code code code codeSpassSesseseseseseseseAwiderRangeLangeLangeforLageforLogageforLogicIctInterract

HTML，CSS和JavaScript：Web开发人员的基本工具Apr 09, 2025 am 12:12 AM

HTML、CSS和JavaScript是Web开发的三大支柱。1.HTML定义网页结构，使用标签如、等。2.CSS控制网页样式，使用选择器和属性如color、font-size等。3.JavaScript实现动态效果和交互，通过事件监听和DOM操作。

HTML，CSS和JavaScript的角色：核心职责Apr 08, 2025 pm 07:05 PM

HTML定义网页结构，CSS负责样式和布局，JavaScript赋予动态交互。三者在网页开发中各司其职，共同构建丰富多彩的网站。

HTML容易为初学者学习吗？Apr 07, 2025 am 12:11 AM

HTML适合初学者学习，因为它简单易学且能快速看到成果。1)HTML的学习曲线平缓，易于上手。2)只需掌握基本标签即可开始创建网页。3)灵活性高，可与CSS和JavaScript结合使用。4)丰富的学习资源和现代工具支持学习过程。

HTML中起始标签的示例是什么？Apr 06, 2025 am 12:04 AM

AnexampleOfAstartingTaginHtmlis，beginSaparagraph.startingTagSareEssentialInhtmlastheyInitiateEllements，defiteTheeTheErtypes，andarecrucialforsstructuringwebpages wepages webpages andConstructingthedom。