搜尋
首頁後端開發Python教學使用 Beautiful Soup 和 Scrapy 進行網頁抓取:有效率、負責任地擷取數據

Web Scraping with Beautiful Soup and Scrapy: Extracting Data Efficiently and Responsibly

在數位時代,資料是寶貴的資產,網頁抓取已成為從網站提取資訊的重要工具。本文探討了兩個流行的 Web 抓取 Python 函式庫:Beautiful Soup 和 Scrapy。我們將深入研究它們的功能,提供即時工作程式碼範例,並討論負責任的網路抓取的最佳實踐。

網頁抓取簡介

網頁抓取是從網站擷取資料的自動化過程。它廣泛應用於各個領域,包括數據分析、機器學習和競爭分析。然而,網頁抓取必須負責任地進行,以尊重網站服務條款和法律界限。

Beautiful Soup:適合初學者的圖書館

Beautiful Soup 是一個 Python 函式庫,專為快速輕鬆的網頁抓取任務而設計。它對於解析 HTML 和 XML 文件並從中提取資料特別有用。 Beautiful Soup 提供了迭代、搜尋和修改解析樹的 Pythonic 慣用法。

主要特點

  • 易於使用:Beautiful Soup 適合初學者且易於學習。
  • 靈活的解析:它可以解析 HTML 和 XML 文檔,甚至是那些帶有格式錯誤的標記的文檔。
  • 整合:與其他 Python 函式庫配合良好,例如取得網頁的請求。

安裝中

要開始使用 Beautiful Soup,您需要將其與請求庫一起安裝:

pip install beautifulsoup4 requests

基本範例

讓我們從範例部落格頁面中提取文章標題:

import requests
from bs4 import BeautifulSoup

# Fetch the web page
url = 'https://example-blog.com'
response = requests.get(url)
# Check if the request was successful
if response.status_code == 200:
    # Parse the HTML content
    soup = BeautifulSoup(response.text, 'html.parser')
    # Extract article titles
    titles = soup.find_all('h1', class_='entry-title')
    # Check if titles were found
    if titles:
        for title in titles:
            # Extract and print the text of each title
            print(title.get_text(strip=True))
    else:
        print("No titles found. Please check the HTML structure and update the selector.")
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

優點

  • 簡單:非常適合中小型專案。
  • 穩健性:優雅地處理格式不良的 HTML。

Scrapy:一個強大的網頁抓取框架

Scrapy是一個全面的網頁抓取框架,提供大規模資料擷取的工具。它專為性能和靈活性而設計,使其適合複雜的專案。

主要特點

  • 速度和效率:內建對非同步請求的支援。
  • 可擴充性:透過中間件和管道進行高度可自訂。
  • 內建資料匯出:支援匯出JSON、CSV、XML等多種格式的資料。

安裝中

使用 pip 安裝 Scrapy:

pip install scrapy

基本範例

為了示範 Scrapy,我們將建立一個蜘蛛來從網站上抓取報價:

  • 建立一個 Scrapy 專案
pip install beautifulsoup4 requests
  • 定義蜘蛛: 在spiders目錄下建立一個檔案quotes_spider.py:
import requests
from bs4 import BeautifulSoup

# Fetch the web page
url = 'https://example-blog.com'
response = requests.get(url)
# Check if the request was successful
if response.status_code == 200:
    # Parse the HTML content
    soup = BeautifulSoup(response.text, 'html.parser')
    # Extract article titles
    titles = soup.find_all('h1', class_='entry-title')
    # Check if titles were found
    if titles:
        for title in titles:
            # Extract and print the text of each title
            print(title.get_text(strip=True))
    else:
        print("No titles found. Please check the HTML structure and update the selector.")
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")
  • 運行蜘蛛: 執行spider來抓取資料:
pip install scrapy

優點

  • 可擴充性:高效處理大規模抓取專案。
  • 內建功能:提供強大的功能,例如請求調度和資料管道。

負責任的網頁抓取的最佳實踐

雖然網頁抓取是一個強大的工具,但負責任地使用它至關重要:

  • 尊重Robots.txt:始終檢查網站的robots.txt檔案以了解哪些頁面可以被抓取。
  • 速率限制:在請求之間實施延遲,以避免伺服器不堪負荷。
  • 使用者代理程式輪換:使用不同的使用者代理字串來模仿真實的使用者行為。
  • 法律合規性:確保遵守法律要求和網站服務條款。

結論

Beautiful Soup 和 Scrapy 是強大的網頁抓取工具,各有其優勢。 Beautiful Soup 非常適合初學者和小型項目,而 Scrapy 則適合大規模、複雜的抓取任務。透過遵循最佳實踐,您可以有效率、負責任地提取數據,釋放有價值的見解

註:AI輔助內容

以上是使用 Beautiful Soup 和 Scrapy 進行網頁抓取:有效率、負責任地擷取數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python:遊戲,Guis等Python:遊戲,Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame,提供繪圖、音頻等功能,適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt,Tkinter簡單易用,PyQt功能豐富,適合專業開發。

Python vs.C:申請和用例Python vs.C:申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称,C 则以高性能和底层控制能力闻名。

2小時的Python計劃:一種現實的方法2小時的Python計劃:一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

Python:探索其主要應用程序Python:探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

您可以在2小時內學到多少python?您可以在2小時內學到多少python?Apr 09, 2025 pm 04:33 PM

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?Apr 02, 2025 am 07:18 AM

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Apr 02, 2025 am 07:12 AM

Python3.6環境下加載Pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用