Heim  >  Artikel  >  Backend-Entwicklung  >  Einführung in die Art und Weise, wie das Beautiful Soup-Modul Objekte in Python erstellt

Einführung in die Art und Weise, wie das Beautiful Soup-Modul Objekte in Python erstellt

Y2J
Y2JOriginal
2017-04-22 09:45:271745Durchsuche

Dieser Artikel stellt hauptsächlich die relevanten Informationen über die Verwendung des Beautiful Soup-Moduls zum Erstellen von Objekten vor. Ich glaube, dass es für jeden, der es benötigt, einen gewissen Referenzwert hat.

Installieren

Installieren Sie das Beautiful Soup-Modul über pip: pip install beautifulsoup4 .

Sie können auch die PyCharm-IDE verwenden, um Code in den Einstellungen von PyCharm zu schreiben, darin nach dem Beautiful Soup-Modul zu suchen und es zu installieren.

BeautifulSoup-Objekt erstellen

Das Beautiful Soup-Modul wird häufig zum Abrufen von Daten von Webseiten verwendet. Mit dem Beautiful Soup-Modul können wir beliebige Daten aus einem HTML/XML-Dokument extrahieren, zum Beispiel alle Links in einer Webseite oder Inhalte innerhalb von Tags.

Um dies zu erreichen, stellt Beautiful Soup verschiedene Objekte und Methoden zur Verfügung. Jedes HTML/XML-Dokument kann in verschiedene Beautiful Soup-Objekte konvertiert werden. Diese Objekte haben unterschiedliche Eigenschaften und Methoden, und wir können die erforderlichen Daten daraus extrahieren.

Beautiful Soup hat insgesamt drei Objekte:

  1. BeautifulSoup

  2. Tag

  3. NavigableString

Erstellen eines BeautifulSoup-Objekts

Das Erstellen eines BeautifulSoup-Objekts ist der Ausgangspunkt für jede Beautiful Soup Projekt.

BeautifulSoup kann eine Zeichenfolge oder ein dateiähnliches Objekt, beispielsweise eine Datei oder Webseite, auf dem Computer übergeben.

Erstellen Sie ein BeautifulSoup-Objekt aus einer Zeichenfolge

Erstellen Sie ein BeautifulSoup-Objekt, indem Sie in seinem Konstruktor eine Zeichenfolge übergeben.

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld)
print soup_string 
<html><body><p>Hello World</p></body></html>

Erstellen Sie ein BeautifulSoup-Objekt aus einem dateiähnlichen Objekt

Erstellen Sie ein BeautifulSoup-Objekt, indem Sie in seinem Konstruktor ein dateiähnliches Objekt übergeben. Dies ist beim Parsen von Online-Webseiten sehr nützlich.

url = "http://www.glumes.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
print soup

Zusätzlich zur Übergabe dateiähnlicher Objekte können wir auch lokale Dateiobjekte an den Konstruktor von BeautifulSoup übergeben, um Objekte zu generieren.

with open(&#39;foo.html&#39;,&#39;r&#39;) as foo_file :
 soup_foo = BeautifulSoup(foo_file)
print soup_foo

Erstellen Sie BeautifulSoup-Objekte für das XML-Parsen

Das Beautiful Soup-Modul kann auch zum Parsen von XML verwendet werden.

Beim Erstellen eines BeautifulSoup-Objekts wählt das Beautiful Soup-Modul die entsprechende TreeBuilder-Klasse aus, um den HTML/XML-Baum zu erstellen. Standardmäßig ist das HTML TreeBuilder-Objekt ausgewählt, das den Standard-HTML-Parser verwendet, um einen HTML-Strukturbaum zu erstellen. Im obigen Code wird das BeautifulSoup-Objekt aus der Zeichenfolge generiert, indem sie in eine HTML-Baumstruktur analysiert wird.

Wenn wir möchten, dass das Beautiful Soup-Modul den Eingabeinhalt in einen XML-Typ analysiert, müssen wir den im Beautiful Soup-Konstruktor verwendeten Funktionsparameter genau angeben. Durch Angabe des Parameters „features“ wählt Beautiful Soup die TreeBuilder-Klasse aus, die am besten für die von uns gewünschten Funktionen geeignet ist.

Verstehen des Funktionsparameters

Jeder TreeBuilder verfügt je nach verwendetem Parser über unterschiedliche Funktionen. Daher führt der Eingabeinhalt je nach dem an den Konstruktor übergebenen Funktionsparameter zu unterschiedlichen Ergebnissen.
Im Beautiful Soup-Modul lauten die derzeit von TreeBuilder verwendeten Parser wie folgt:

  1. lxml

  2. html5lib

  3. html.parser

Der Features-Parameter des BeautifulSoup-Konstruktors kann eine String-Liste oder einen String-Wert akzeptieren.

Derzeit sind die von jedem TreeBuilder unterstützten Funktionsparameter und Parser in der folgenden Tabelle aufgeführt:

Features TreeBuilder Parser
[‘lxml','html','fast','permissive'] LXMLTreeBuilder lxml
[‘html','html5lib','permissive','strict','html5′] HTML5TreeBuilder html5lib
[‘html','strict','html.parser'] HTMLParserTreeBuilder html.parser
[‘xml','lxml','permissive','fast'] LXMLTreeBuilderForXML lxml

根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。

bs4.FeatureNotFound: Couldn&#39;t find a tree builder with the features you requested: html5lib. 
Do you need to install a parser library?

就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。

所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld,features="xml")
print soup_string

输入的结果也是 XML 形式的文件 :

在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。

当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。

如下 HTML 代码所示:

#!/usr/bin/python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_atag = """
 <html>
 <body>
 <p>Test html a tag example</p>
 <a href="http://www.glumes.com&#39;>Home</a>
 <a href="http;//www.glumes.com/index.html&#39;>Blog</a>
 </body>
 <html>
 """
soup = BeautifulSoup(html_atag,&#39;html.parser&#39;)
atag = soup.a
print type(atag)
print atag

从结果中可以看到 atag 的类型是 c02efc57cb50b3571070ba99b5a8455a  。而 soup.a 的结果就是 HTML 文档中的第一个 3499910bf9dac5ae3c52d5ede7383485 标签。
HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签 3499910bf9dac5ae3c52d5ede7383485 的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称 。

tagname = atag.name
print tagname

同时也能够改变 Tag 对象的名称:

atag.name = &#39;p&#39;

这样就将上面 HTML 文档中的第一个 3499910bf9dac5ae3c52d5ede7383485 标签名称换成了 e388a4556c0f65e1904146cc1a846bee 标签了。

Tag 对象的属性

在 HTML 页面中,标签可能有不同的属性,例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

atag = soup_atag.a
print atag

也能通过 .attrs 的方式访问到,这样会将所有的属性内容都打印出来 :

print atag.attrs
{&#39;href&#39;: u&#39;http://www.glumes.com&#39;}

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容 。

navi = atag.string
print type(navi)
print navi.string

小结

代码小结如下:

BeautifulSoup

  • soup = BeautifulSoup(String)

  • soup = BeautifulSoup(String,features=”xml”)

Tag

  • tag = soup.tag

  • tag.name

  • tag[‘attribute']

NavigableString

  • soup.tag.string

总结

Das obige ist der detaillierte Inhalt vonEinführung in die Art und Weise, wie das Beautiful Soup-Modul Objekte in Python erstellt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn