ホームページ >バックエンド開発 >Python チュートリアル >Python クローラーで要素を見つけるために一般的に使用される 4 つの方法を比較しました。どれが好みですか?

Python クローラーで要素を見つけるために一般的に使用される 4 つの方法を比較しました。どれが好みですか?

Python当打之年転載: 2023-08-15 14:42:311176ブラウズ

この Python クローラーを使用してデータを収集する場合、非常に重要な操作は、

データの抽出方法です。要求された Web ページから を選択し、目的のデータを正しく見つけることが最初のステップです。

この記事では、誰もが学べるように、Python クローラーで Web ページ要素を見つけるために

一般的に使用されるいくつかの方法 を比較します。 #Traditional

BeautifulSoup

操作
BeautifulSoup に基づく CSS セレクター (PyQuery
に似ています)

#XPath
正規表現
”

参考 Web ページは
Dangdang.com ベストセラー書籍リスト
:
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1
最初の 20 冊の本のタイトルを例として取り上げます。まず、Web サイトにクロール対策が設定されていないこと、および解析対象のコンテンツを直接返すことができるかどうかを確認します。
import requests

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
print(response)
慎重に検査した結果、返されたコンテンツには必要なデータがすべて含まれていることがわかり、不要であることがわかりました。クロール対策に特別な配慮が払われています。

Web ページの要素を確認したところ、書誌情報が含まれていることがわかりました。 li 内、これは class に属し、bang_list clearfix bang_list_modeul 内

さらに検査すると、また、本のタイトルの対応する位置も明らかになり、さまざまな分析方法の重要な基礎となります

#1. 伝統的な BeautifulSoup 操作# #古典的な BeautifulSoup メソッドは、
from bs4 import BeautifulSoup
を使用し、次に soup = BeautifulSoup(html, " lxml") を使用します。テキストを特定の標準化された構造に変換し、 を使用します。 find 一連の解析メソッドです。コードは次のとおりです: <pre class="brush:php;toolbar:false;">import requests from bs4 import BeautifulSoup url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39; response = requests.get(url).text def bs_for_parse(response): soup = BeautifulSoup(response, "lxml") li_list = soup.find(&#39;ul&#39;, class_=&#39;bang_list clearfix bang_list_mode&#39;).find_all(&#39;li&#39;) # 锁定ul后获取20个li for li in li_list: title = li.find(&#39;div&#39;, class_=&#39;name&#39;).find(&#39;a&#39;)[&#39;title&#39;] # 逐个解析获取书名 print(title) if __name__ == &#39;__main__&#39;: bs_for_parse(response)</pre>

20 冊の本のタイトルを正常に取得しましたが、その中には文章で長く見えるものもあります。正規表現やその他の文字列メソッドについては、この記事では詳しく説明しません
2. 基于 BeautifulSoup 的 CSS 选择器

这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用，用法是类似的。关于 CSS 选择器详细语法可以参考：http://www.w3school.com.cn/cssref/css_selectors.asp由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的：
import requests
from bs4 import BeautifulSoup

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
        
def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml") 
    print(soup)

if __name__ == &#39;__main__&#39;:
    css_for_parse(response)
然后就是通过 soup.select 辅以特定的 CSS 语法获取特定内容，基础依旧是对元素的认真审查分析：
import requests
from bs4 import BeautifulSoup
from lxml import html

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
        
def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.select(&#39;ul.bang_list.clearfix.bang_list_mode > li&#39;)
    for li in li_list:
        title = li.select(&#39;div.name > a&#39;)[0][&#39;title&#39;]
        print(title)

if __name__ == &#39;__main__&#39;:
    css_for_parse(response)
3. XPath

XPath 即为 XML 路径语言，它是一种用来确定 XML 文档中某部分位置的计算机语言，如果使用 Chrome 浏览器建议安装 XPath Helper 插件，会大大提高写 XPath 的效率。

之前的爬虫文章基本都是基于 XPath，大家相对比较熟悉因此代码直接给出：
import requests
from lxml import html

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def xpath_for_parse(response):
    selector = html.fromstring(response)
    books = selector.xpath("//ul[@class=&#39;bang_list clearfix bang_list_mode&#39;]/li")
    for book in books:
        title = book.xpath(&#39;div[@class="name"]/a/@title&#39;)[0]
        print(title)

if __name__ == &#39;__main__&#39;:
    xpath_for_parse(response)
4. 正则表达式

如果对 HTML 语言不熟悉，那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法：正则表达式，只需要关注文本本身有什么特殊构造文法，即可用特定规则获取相应内容。依赖的模块是 re

首先重新观察直接返回的内容中，需要的文字前后有什么特殊：
import requests
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text
print(response)
观察几个数目相信就有答案了：a7758aac1f23c7126c7b5ea3ba480710eab402ff055639ed6d70ede803486abf 书名就藏在上面的字符串中，蕴含的网址链接中末尾的数字会随着书名而改变。

分析到这里正则表达式就可以写出来了：
import requests
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def re_for_parse(response):
    reg = &#39;<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">&#39;
    for title in re.findall(reg, response):
        print(title)

if __name__ == &#39;__main__&#39;:
    re_for_parse(response)
可以发现正则写法是最简单的，但是需要对于正则规则非常熟练。所谓正则大法好！

当然，不论哪种方法都有它所适用的场景，在真实操作中我们也需要在分析网页结构来判断如何高效的定位元素，最后附上本文介绍的四种方法的完整代码，大家可以自行操作一下来加深体会
import requests
from bs4 import BeautifulSoup
from lxml import html
import re

url = &#39;http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1&#39;
response = requests.get(url).text

def bs_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.find(&#39;ul&#39;, class_=&#39;bang_list clearfix bang_list_mode&#39;).find_all(&#39;li&#39;)
    for li in li_list:
        title = li.find(&#39;div&#39;, class_=&#39;name&#39;).find(&#39;a&#39;)[&#39;title&#39;]
        print(title)

def css_for_parse(response):
    soup = BeautifulSoup(response, "lxml")
    li_list = soup.select(&#39;ul.bang_list.clearfix.bang_list_mode > li&#39;)
    for li in li_list:
        title = li.select(&#39;div.name > a&#39;)[0][&#39;title&#39;]
        print(title)

def xpath_for_parse(response):
    selector = html.fromstring(response)
    books = selector.xpath("//ul[@class=&#39;bang_list clearfix bang_list_mode&#39;]/li")
    for book in books:
        title = book.xpath(&#39;div[@class="name"]/a/@title&#39;)[0]
        print(title)

def re_for_parse(response):
    reg = &#39;<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">&#39;
    for title in re.findall(reg, response):
        print(title)

if __name__ == &#39;__main__&#39;:
    # bs_for_parse(response)
    # css_for_parse(response)
    # xpath_for_parse(response)
    re_for_parse(response)

以上がPython クローラーで要素を見つけるために一般的に使用される 4 つの方法を比較しました。どれが好みですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python css 正则表达式 chrome html beautifulsoup select xml 字符串 class href 选择器 ul li http

声明：

この記事はPython当打之年で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：ゴールド 3、シルバー 4、Python 面接の必須質問 50 (推奨コレクション)次の記事：ゴールド 3、シルバー 4、Python 面接の必須質問 50 (推奨コレクション)

続きを見る