Rumah >hujung hadapan web >html tutorial >Mesti menguasai untuk meningkatkan kemahiran anda! Ringkasan petua pemilih lxml dan pemilih yang disokong!
Mesti ada untuk kemajuan! Petua untuk menggunakan pemilih lxml dan senarai pemilih yang disokong!
Ikhtisar:
Pemilih ialah alat yang sangat penting semasa melakukan pengikisan data web atau pengekstrakan data. Dalam Python, terdapat banyak perpustakaan pemilih untuk dipilih, antaranya lxml ialah perpustakaan pemilih yang berkuasa. Artikel ini akan memperkenalkan kemahiran penggunaan pemilih lxml dan senarai pemilih yang disokong untuk membantu pembaca meningkatkan lagi kecekapan pengekstrakan data.
1. Pengenalan kepada pemilih lxml
lxml ialah perpustakaan penghurai berasaskan Python yang menyediakan pemilih XPath dan pemilih CSS yang boleh diperluas untuk menghuraikan dokumen HTML dan XML. Kelebihan utama pemilih lxml ialah ia pantas, berkuasa dan sesuai untuk memproses fail besar. Sebelum menggunakan pemilih lxml, anda perlu memasang perpustakaan lxml terlebih dahulu Anda boleh memasangnya melalui arahan berikut:
pip install lxml
2. Penggunaan asas pemilih lxml
Penggunaan asas pemilih lxml adalah sangat mudah hanya perlu mengimport modul yang sepadan dan mencipta objek pemilih, dan kemudian gunakan objek pemilih untuk mengekstrak data.
Mula-mula, import perpustakaan lxml dan modul yang sepadan:
from lxml import etree
Kemudian, huraikan dokumen HTML atau XML, dan buat objek pemilih:
# 解析HTML文档 html = ''' <html> <body> <div class="container"> <h1>标题1</h1> <p class="content">内容1</p> </div> <div class="container"> <h1>标题2</h1> <p class="content">内容2</p> </div> </body> </html> ''' # 创建选择器对象 selector = etree.HTML(html)
Seterusnya, anda boleh menggunakan objek pemilih untuk mengekstrak data. Pemilih lxml menyokong pemilih XPath dan pemilih CSS Penggunaannya akan diperkenalkan di bawah.
XPath (Bahasa Laluan XML) ialah bahasa yang digunakan untuk menavigasi dan mengekstrak maklumat dalam dokumen XML atau HTML. Pemilih lxml menyokong pemilih XPath, yang melaluinya unsur-unsur yang akan diekstrak boleh dikesan dengan tepat.
Sintaks XPath biasa termasuk:
//
, []
/
、//
、[]
@
text()
..
以下是几个XPath选择器的示例:
# 提取h1标签的文本 titles = selector.xpath('//h1/text()') print(titles) # 输出:['标题1', '标题2'] # 提取p标签的属性class值 classes = selector.xpath('//p/@class') print(classes) # 输出:['content', 'content']
CSS(Cascading Style Sheets)选择器是一种用于在HTML文档中选择元素的语言。lxml选择器也支持CSS选择器,通过CSS选择器可以通过标签、类、ID等方式进行元素的定位。
常见的CSS选择器包括:
.类名
#ID名
+
~
以下是几个CSS选择器的示例:
# 提取h1标签的文本 titles = selector.cssselect('h1') for title in titles: print(title.text) # 输出:标题1、标题2 # 提取p标签的属性class值 classes = selector.cssselect('p.content') for p in classes: print(p.get('class')) # 输出:content、content
三、lxml选择器支持的选择器一览
lxml选择器支持的选择器包括XPath选择器和CSS选择器,下面是一些常用的选择器:
XPath选择器:
/
:选择根节点//
:选择所有节点[]
:条件选择@
:选择属性text()
:选择文本..
:选择父节点CSS选择器:
.类名
#ID名
+
~
@
text()
Pilih nod induk: ..
rrreee
Atas ialah kandungan terperinci Mesti menguasai untuk meningkatkan kemahiran anda! Ringkasan petua pemilih lxml dan pemilih yang disokong!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!