搜尋
首頁web前端html教學Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

有人问米开朗基罗:"您是如何创造出《大卫》这样的巨作的?"他答道:"很简单,我去采石场,看见一块巨大的大理石 ,我要做的只是凿去那些不该有的大理石,大卫就诞生了。

同样我们在抓取网页的时候,需要去掉我们不需要的,提取出需要的信息,只不过技术相当复杂。这篇文章将介绍HTML解析技术

在上篇文章( Web Scraping with Python--第一个网页抓取实例)中,我们初步接触了BeutifulSoup库, 这里我们将通过属性来查找标签tags。

几乎所有的网站都包含CSS,对我们抓取网页很有利,CSS依赖于不同的HTML元素有不同的标记,比如:

来看一个网站-http://www.pythonscraping.com/pages/warandpeace.html,里面是一篇文章,口语是红色的字体,而讲话者是绿色的字体,选取其中一个源代码片段:

"Heavens! what a virulent attack!" replied the prince, not in the least disconcerted by this reception.

可以使用上一篇文章中使用的程序来创建一个BeautifulSoup对象来获取整个网页:

from urllib.requestimport urlopenfrom bs4import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html)

使用BeautifulSoup对象的findAll方法来提取出一个指定要求的列表

nameList = bsObj.findAll("span", {"class":"green"})for namein nameList:    print(name.get_text())

将上面的代码证整理一下:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")nameList = bsObj.findAll("span", {"class": "green"})for namein nameList:    print(name.get_text())

运行结果:

Anna

Pavlovna Scherer

Empress Marya

……

解释一下上面的代码:

bsObj.findAll(tagName, tagAttributes) 获取整个页面上的标签的列表,然后通过迭代列表,获取相应的标签的内容

find() 和 findAll()

这两个方法很相似,它们的声明如下:

findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)

tag参数就像之前见到的那样,你可以传递一个字符串或者一个字符串列表:.findAll({"h1","h2","h3","h4","h5","h6"})

attributes参数传递一个属性和tags相匹配的字典,例如:.findAll("span", {"class":"green", "class":"red"})

recursive参数用于设置是否设置递归

keywor参数允许你包含一个特别的属性,例如:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")allText = bsObj.findAll(id="text")#也可以换为:allText = bsObj.findAll("",{"id":"text"})print(allText[0].get_text())

如果你想查找子标签,可以使用children:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for childin bsObj.find("table", {"id": "giftList"}).children:    print(child)

如果想去掉第一行的

内容,可以使用next_siblings

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for siblingin bsObj.find("table", {"id":"giftList"}).tr.next_siblings:    print(sibling)

如果你想查找父标签,可以使用 previous_siblings:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

从下面的html结构一目了然

(3)

— “$15.00” (4)

— s

(2)

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose (1)

正则表达式与 BeautifulSoup

python中的正则可以参照我的另一篇《 Python基础(9)--正则表达式》

注意到上面的实例网页中有如下结构:

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

假如有个需求是提取所有的img标签,按照之前的说法,可以考虑 findAll("img")来解决这个问题,但是现代网站有的隐藏img……等不确定因素,这时候才有正则表达式来解决:

from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport re html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for imagein images:    print(image["src"])

运行结果如下:

../img/gifts/img1.jpg

../img/gifts/img2.jpg

../img/gifts/img3.jpg

../img/gifts/img4.jpg

../img/gifts/img6.jpg

作者:工学1号馆

出处: http://wuyudong.com/1842.html

本文版权归作者所有,欢迎转载,在文章页面明显位置给出原文链接,否则保留追究法律责任的权利.

如果觉得本文对您有帮助,可以对作者进行小额【赞助】

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
> gt;的目的是什麼 元素?> gt;的目的是什麼 元素?Mar 21, 2025 pm 12:34 PM

本文討論了HTML< Progress>元素,其目的,樣式和與< meter>元素。主要重點是使用< progress>為了完成任務和LT;儀表>對於stati

< datalist>的目的是什麼。 元素?< datalist>的目的是什麼。 元素?Mar 21, 2025 pm 12:33 PM

本文討論了html< datalist>元素,通過提供自動完整建議,改善用戶體驗並減少錯誤來增強表格。Character計數:159

< meter>的目的是什麼。 元素?< meter>的目的是什麼。 元素?Mar 21, 2025 pm 12:35 PM

本文討論了HTML< meter>元素,用於在一個範圍內顯示標量或分數值及其在Web開發中的常見應用。它區分了< meter>從< progress>和前

視口元標籤是什麼?為什麼對響應式設計很重要?視口元標籤是什麼?為什麼對響應式設計很重要?Mar 20, 2025 pm 05:56 PM

本文討論了視口元標籤,這對於移動設備上的響應式Web設計至關重要。它解釋瞭如何正確使用確保最佳的內容縮放和用戶交互,而濫用可能會導致設計和可訪問性問題。

HTML5中跨瀏覽器兼容性的最佳實踐是什麼?HTML5中跨瀏覽器兼容性的最佳實踐是什麼?Mar 17, 2025 pm 12:20 PM

文章討論了確保HTML5跨瀏覽器兼容性的最佳實踐,重點是特徵檢測,進行性增強和測試方法。

我如何使用html5< time> 元素以語義表示日期和時間?我如何使用html5< time> 元素以語義表示日期和時間?Mar 12, 2025 pm 04:05 PM

本文解釋了HTML5< time>語義日期/時間表示的元素。 它強調了DateTime屬性對機器可讀性(ISO 8601格式)的重要性,並在人類可讀文本旁邊,增強Accessibilit

如何使用HTML5表單驗證屬性來驗證用戶輸入?如何使用HTML5表單驗證屬性來驗證用戶輸入?Mar 17, 2025 pm 12:27 PM

本文討論了使用HTML5表單驗證屬性,例如必需的,圖案,最小,最大和長度限制,以直接在瀏覽器中驗證用戶輸入。

< iframe>的目的是什麼。 標籤?使用時的安全考慮是什麼?< iframe>的目的是什麼。 標籤?使用時的安全考慮是什麼?Mar 20, 2025 pm 06:05 PM

本文討論了< iframe>將外部內容嵌入網頁,其常見用途,安全風險以及諸如對象標籤和API等替代方案的目的。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境