首頁 >後端開發 >Python教學 >Beautiful Soup模組在Python中建立物件的方法介紹

Beautiful Soup模組在Python中建立物件的方法介紹

Y2J
Y2J原創
2017-04-22 09:45:271842瀏覽

這篇文章主要介紹了Python利用Beautiful Soup模組創建物件的相關資料,文中介紹的非常詳細,相信對大家具有一定的參考價值,需要的朋友們下面來一起看看吧。

安裝

透過 pip 安裝 Beautiful Soup 模組:pip install beautifulsoup4

也可以使用 PyCharm IDE 來寫入程式碼,在 PyCharm 中的 Preferences 中找到 Project ,在裡面搜尋 Beautiful Soup 模組,進行安裝即可。

建立 BeautifulSoup 物件

#Beautiful Soup 模組廣泛使用從網頁中得到資料。我們能夠使用 Beautiful Soup 模組從 HTML/XML 文件中提取任何數據,例如,網頁中的所有連結或標籤內的內容。

為了實現這一點,Beautiful Soup 提供了不同的物件和方法。任何的 HTML/XML 文件能夠轉換成不同的 Beautiful Soup 對象,這些對像有著不同的屬性和方法,我們能夠從中提取到所需的資料。

Beautiful Soup 總共有以下三種物件:

  1. BeautifulSoup

  2. ##Tag



#NavigableString

建立BeautifulSoup 物件

建立一個BeautifulSoup 物件是任何Beautiful Soup 工程的起點。

BeautifulSoup 可以透過傳送字串或類別檔案物件(file-like object),例如機器上的檔案或網頁。

透過字串建立 BeautifulSoup 物件

在 BeautifulSoup 的建構器中透過傳遞一個字串來建立物件。

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld)
print soup_string 
<html><body><p>Hello World</p></body></html>

透過類別檔案物件建立 BeautifulSoup 物件

在 BeautifulSoup 的建構子中透過傳遞一個類別檔案物件(file-like object)來建立物件。這在解析線上網頁時非常有用。

url = "http://www.glumes.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
print soup

除了傳遞類別檔案物件之外,我們還可以傳遞本機檔案物件到 BeautifulSoup 的建構器來產生物件。

with open(&#39;foo.html&#39;,&#39;r&#39;) as foo_file :
 soup_foo = BeautifulSoup(foo_file)
print soup_foo

為 XML 解析建立 BeautifulSoup 物件
  1. #Beautiful Soup 模組同樣能夠用來解析 XML 。

  2. 當建立一個 BeautifulSoup 物件時, Beautiful Soup 模組將會選擇適當的 TreeBuilder 類別來建立 HTML/XML 樹。預設情況下,選擇 HTML TreeBuilder 對象,它將使用預設的 HTML 解析器,產生一個 HTML 結構樹。在上面的程式碼中,由字串產生 BeautifulSoup 對象,就是將它解析成了 HTML 樹結構。
  3. 如果我們想要 Beautiful Soup 模組將輸入的內容解析為 XML 類型,那麼就需要在 Beautiful Soup 建構器中精確指定使用的 features 參數。透過特定的 features 參數,Beautiful Soup 將會選擇最適合的 TreeBuilder 類別來滿足我們想要的特徵。

  4. 理解 features 參數

  5. 每一個 TreeBuilder 根據它所使用的解析器將會有不同的特徵。因此,輸入的內容會根據傳遞到建構器的 features 參數也會有不同的結果。
在Beautiful Soup 模組中,TreeBuilder 目前使用的解析器如下:


lxml

##html5libBeautifulSoup 建構器的features 參數能夠接受一個字串清單或一個字串值。 目前,每一個TreeBuilder 支援的features 參數與解析器如下表所示:TreeBuilder['lxml','html','fast','permissive']['html','html5lib','permissive','strict','html5′]['html','strict','html.parser']
#html.parser
Features
Parser
LXMLTreeBuilder lxml
HTML5TreeBuilder html5lib
HTMLParserTreeBuilder#####html.parser##### #######['xml','lxml','permissive','fast']#######LXMLTreeBuilderForXML######lxml#############

根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。

bs4.FeatureNotFound: Couldn&#39;t find a tree builder with the features you requested: html5lib. 
Do you need to install a parser library?

就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。

所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld,features="xml")
print soup_string

输入的结果也是 XML 形式的文件 :

在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。

当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。

如下 HTML 代码所示:

#!/usr/bin/python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_atag = """
 <html>
 <body>
 <p>Test html a tag example</p>
 <a href="http://www.glumes.com&#39;>Home</a>
 <a href="http;//www.glumes.com/index.html&#39;>Blog</a>
 </body>
 <html>
 """
soup = BeautifulSoup(html_atag,&#39;html.parser&#39;)
atag = soup.a
print type(atag)
print atag

从结果中可以看到 atag 的类型是 c02efc57cb50b3571070ba99b5a8455a  。而 soup.a 的结果就是 HTML 文档中的第一个 3499910bf9dac5ae3c52d5ede7383485 标签。
HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签 3499910bf9dac5ae3c52d5ede7383485 的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称 。

tagname = atag.name
print tagname

同时也能够改变 Tag 对象的名称:

atag.name = &#39;p&#39;

这样就将上面 HTML 文档中的第一个 3499910bf9dac5ae3c52d5ede7383485 标签名称换成了 e388a4556c0f65e1904146cc1a846bee 标签了。

Tag 对象的属性

在 HTML 页面中,标签可能有不同的属性,例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

atag = soup_atag.a
print atag

也能通过 .attrs 的方式访问到,这样会将所有的属性内容都打印出来 :

print atag.attrs
{&#39;href&#39;: u&#39;http://www.glumes.com&#39;}

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容 。

navi = atag.string
print type(navi)
print navi.string

小结

代码小结如下:

BeautifulSoup

  • soup = BeautifulSoup(String)

  • soup = BeautifulSoup(String,features=”xml”)

Tag

  • tag = soup.tag

  • tag.name

  • tag[‘attribute']

NavigableString

  • soup.tag.string

总结

以上是Beautiful Soup模組在Python中建立物件的方法介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn