Rumah >pembangunan bahagian belakang >Tutorial Python >Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

Python当打之年
Python当打之年ke hadapan
2023-08-15 14:42:311010semak imbas

.

Artikel ini akan membandingkan kaedah yang biasa digunakan untuk mencari elemen halaman web dalam beberapa perangkak Python untuk dipelajari oleh semua orang


TradisionalBeautifulSoup operasi

berdasarkan Pemilih CSS BeautifulSoup (dengan PyQuery similar)

<pre class="brush:php;toolbar:false;">http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1</pre><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img src="https://img.php.cn/upload/article/001/267/443/21d313e128464b6c1113677cb281678c-1.jpg" alt="Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?" ></figure><p data-tool="mdnice编辑器" style="max-width:90%"> Mari kita ambil tajuk 20 buku pertama sebagai contoh. Mula-mula pastikan tapak web itu tidak menyediakan langkah anti-merangkak, dan sama ada ia boleh mengembalikan kandungan secara terus untuk dihuraikan: </p><pre class="brush:php;toolbar:false;">import requests url = &amp;#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&amp;#39; response = requests.get(url).text print(response)</pre><figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img src="https://img.php.cn/upload/article/001/267/443/21d313e128464b6c1113677cb281678c-2.png" alt="Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?" ></figure><p data-tool="mdnice编辑器" style="max-width:90%">Setelah diperiksa dengan teliti, didapati bahawa data yang diperlukan semuanya telah dikembalikan kandungan, menunjukkan bahawa tidak ada keperluan untuk mempertimbangkan langkah anti-merangkak </p> <p data-tool="mdnice编辑器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;font-size: 16px;">Semak elemen halaman web Ia boleh didapati kemudian bahawa maklumat bibliografi disertakan dalam <code style="padding: 2px 4px;border-radius: 4px;margin -kanan: 2px;margin-left: 2px;background-color: rgba(27, 31, 35, 0.05 );font-family: " operator mono consolas monaco menlo monospace break-all rgb>li in, subordinat kepada class ialah bang_list clearfix bang_list_mode'sul dalam Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?li 中,从属于 classbang_list clearfix bang_list_modeulPerbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

进一步审查也可以发现书名在的相应位置,这是多种解析方法的重要基础Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

1. 传统 BeautifulSoup 操作

经典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup,然后通过 soup = BeautifulSoup(html, "lxml") 将文本转换为特定规范的结构,利用 find

Peperiksaan seterusnya juga boleh mendedahkan kedudukan sepadan tajuk buku, yang merupakan asas penting untuk pelbagai kaedah analisisPerbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

1. Operasi BeautifulSoup Tradisional

Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?Kaedah BeautifulSoup klasik menggunakan dari bs4 import BeautifulSoup, dan kemudian lulus soup = BeautifulSoup(html, "lxml") Tukar teks kepada struktur Standard tertentu, menggunakan find siri kaedah Analisis, kodnya adalah seperti berikut:
import requests
from bs4 import BeautifulSoup

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def bs_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.find(&#39;ul&#39;, class_=&#39;bang_list clearfix bang_list_mode&#39;).find_all(&#39;li&#39;) # 锁定ul后获取20个li
    for li in li_list:
        title = li.find(&#39;div&#39;, class_=&#39;name&#39;).find(&#39;a&#39;)[&#39;title&#39;] # 逐个解析获取书名
        print(title)

if __name__ == &#39;__main__&#39;:
    bs_for_parse(response)

🎜🎜 Berjaya memperoleh 20 judul buku. Sebahagian daripadanya panjang dan boleh diproses melalui ungkapan biasa atau kaedah rentetan lain Artikel ini tidak akan memperkenalkannya secara terperinci🎜

2. 基于 BeautifulSoup 的 CSS 选择器

这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用,用法是类似的。关于 CSS 选择器详细语法可以参考:http://www.w3school.com.cn/cssref/css_selectors.asp由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的:

import requests
from bs4 import BeautifulSoup

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
        
def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml") 
    print(soup)

if __name__ == &#39;__main__&#39;:
    css_for_parse(response)

然后就是通过 soup.select 辅以特定的 CSS 语法获取特定内容,基础依旧是对元素的认真审查分析:

import requests
from bs4 import BeautifulSoup
from lxml import html

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
        
def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.select(&#39;ul.bang_list.clearfix.bang_list_mode > li&#39;)
    for li in li_list:
        title = li.select(&#39;div.name > a&#39;)[0][&#39;title&#39;]
        print(title)

if __name__ == &#39;__main__&#39;:
    css_for_parse(response)

3. XPath

XPath 即为 XML 路径语言,它是一种用来确定 XML 文档中某部分位置的计算机语言,如果使用 Chrome 浏览器建议安装 XPath Helper 插件,会大大提高写 XPath 的效率。

之前的爬虫文章基本都是基于 XPath,大家相对比较熟悉因此代码直接给出:

import requests
from lxml import html

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def xpath_for_parse(response):
    selector = html.fromstring(response)
    books = selector.xpath("//ul[@class=&#39;bang_list clearfix bang_list_mode&#39;]/li")
    for book in books:
        title = book.xpath(&#39;div[@class="name"]/a/@title&#39;)[0]
        print(title)

if __name__ == &#39;__main__&#39;:
    xpath_for_parse(response)

4. 正则表达式

如果对 HTML 语言不熟悉,那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法:正则表达式,只需要关注文本本身有什么特殊构造文法,即可用特定规则获取相应内容。依赖的模块是 re

首先重新观察直接返回的内容中,需要的文字前后有什么特殊:

import requests
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
print(response)
Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?

Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?观察几个数目相信就有答案了:a7758aac1f23c7126c7b5ea3ba480710eab402ff055639ed6d70ede803486abf 书名就藏在上面的字符串中,蕴含的网址链接中末尾的数字会随着书名而改变。

分析到这里正则表达式就可以写出来了:

import requests
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def re_for_parse(response):
    reg = &#39;<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">&#39;
    for title in re.findall(reg, response):
        print(title)

if __name__ == &#39;__main__&#39;:
    re_for_parse(response)

可以发现正则写法是最简单的,但是需要对于正则规则非常熟练。所谓正则大法好!

当然,不论哪种方法都有它所适用的场景,在真实操作中我们也需要在分析网页结构来判断如何高效的定位元素,最后附上本文介绍的四种方法的完整代码,大家可以自行操作一下来加深体会

import requests
from bs4 import BeautifulSoup
from lxml import html
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def bs_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.find(&#39;ul&#39;, class_=&#39;bang_list clearfix bang_list_mode&#39;).find_all(&#39;li&#39;)
    for li in li_list:
        title = li.find(&#39;div&#39;, class_=&#39;name&#39;).find(&#39;a&#39;)[&#39;title&#39;]
        print(title)

def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.select(&#39;ul.bang_list.clearfix.bang_list_mode > li&#39;)
    for li in li_list:
        title = li.select(&#39;div.name > a&#39;)[0][&#39;title&#39;]
        print(title)

def xpath_for_parse(response):
    selector = html.fromstring(response)
    books = selector.xpath("//ul[@class=&#39;bang_list clearfix bang_list_mode&#39;]/li")
    for book in books:
        title = book.xpath(&#39;div[@class="name"]/a/@title&#39;)[0]
        print(title)

def re_for_parse(response):
    reg = &#39;<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">&#39;
    for title in re.findall(reg, response):
        print(title)

if __name__ == &#39;__main__&#39;:
    # bs_for_parse(response)
    # css_for_parse(response)
    # xpath_for_parse(response)
    re_for_parse(response)

Atas ialah kandungan terperinci Perbandingan empat kaedah yang biasa digunakan untuk mencari elemen dalam perangkak Python, yang manakah anda lebih suka?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:Python当打之年. Jika ada pelanggaran, sila hubungi admin@php.cn Padam