使用 Beautiful Soup 和 Scrapy 進行網頁抓取：有效率、負責任地擷取數據-Python教學-PHP中文網

首頁

後端開發

Python教學

使用 Beautiful Soup 和 Scrapy 進行網頁抓取：有效率、負責任地擷取數據

Patricia Arquette

Jan 05, 2025 am 07:18 AM

Web Scraping with Beautiful Soup and Scrapy: Extracting Data Efficiently and Responsibly

在數位時代，資料是寶貴的資產，網頁抓取已成為從網站提取資訊的重要工具。本文探討了兩個流行的 Web 抓取 Python 函式庫：Beautiful Soup 和 Scrapy。我們將深入研究它們的功能，提供即時工作程式碼範例，並討論負責任的網路抓取的最佳實踐。

網頁抓取簡介

網頁抓取是從網站擷取資料的自動化過程。它廣泛應用於各個領域，包括數據分析、機器學習和競爭分析。然而，網頁抓取必須負責任地進行，以尊重網站服務條款和法律界限。

Beautiful Soup：適合初學者的圖書館

Beautiful Soup 是一個 Python 函式庫，專為快速輕鬆的網頁抓取任務而設計。它對於解析 HTML 和 XML 文件並從中提取資料特別有用。 Beautiful Soup 提供了迭代、搜尋和修改解析樹的 Pythonic 慣用法。

主要特點

易於使用：Beautiful Soup 適合初學者且易於學習。
靈活的解析：它可以解析 HTML 和 XML 文檔，甚至是那些帶有格式錯誤的標記的文檔。
整合：與其他 Python 函式庫配合良好，例如取得網頁的請求。

安裝中

要開始使用 Beautiful Soup，您需要將其與請求庫一起安裝：

pip install beautifulsoup4 requests

基本範例

讓我們從範例部落格頁面中提取文章標題：

import requests
from bs4 import BeautifulSoup

# Fetch the web page
url = 'https://example-blog.com'
response = requests.get(url)
# Check if the request was successful
if response.status_code == 200:
    # Parse the HTML content
    soup = BeautifulSoup(response.text, 'html.parser')
    # Extract article titles
    titles = soup.find_all('h1', class_='entry-title')
    # Check if titles were found
    if titles:
        for title in titles:
            # Extract and print the text of each title
            print(title.get_text(strip=True))
    else:
        print("No titles found. Please check the HTML structure and update the selector.")
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

優點

簡單：非常適合中小型專案。
穩健性：優雅地處理格式不良的 HTML。

Scrapy：一個強大的網頁抓取框架

Scrapy是一個全面的網頁抓取框架，提供大規模資料擷取的工具。它專為性能和靈活性而設計，使其適合複雜的專案。

主要特點

速度和效率：內建對非同步請求的支援。
可擴充性：透過中間件和管道進行高度可自訂。
內建資料匯出：支援匯出JSON、CSV、XML等多種格式的資料。

安裝中

使用 pip 安裝 Scrapy：

pip install scrapy

基本範例

為了示範 Scrapy，我們將建立一個蜘蛛來從網站上抓取報價：

建立一個 Scrapy 專案：

pip install beautifulsoup4 requests

定義蜘蛛：在spiders目錄下建立一個檔案quotes_spider.py：

import requests
from bs4 import BeautifulSoup

# Fetch the web page
url = 'https://example-blog.com'
response = requests.get(url)
# Check if the request was successful
if response.status_code == 200:
    # Parse the HTML content
    soup = BeautifulSoup(response.text, 'html.parser')
    # Extract article titles
    titles = soup.find_all('h1', class_='entry-title')
    # Check if titles were found
    if titles:
        for title in titles:
            # Extract and print the text of each title
            print(title.get_text(strip=True))
    else:
        print("No titles found. Please check the HTML structure and update the selector.")
else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

運行蜘蛛：執行spider來抓取資料：

pip install scrapy

優點

可擴充性：高效處理大規模抓取專案。
內建功能：提供強大的功能，例如請求調度和資料管道。

負責任的網頁抓取的最佳實踐

雖然網頁抓取是一個強大的工具，但負責任地使用它至關重要：

尊重Robots.txt：始終檢查網站的robots.txt檔案以了解哪些頁面可以被抓取。
速率限制：在請求之間實施延遲，以避免伺服器不堪負荷。
使用者代理程式輪換：使用不同的使用者代理字串來模仿真實的使用者行為。
法律合規性：確保遵守法律要求和網站服務條款。

結論

Beautiful Soup 和 Scrapy 是強大的網頁抓取工具，各有其優勢。 Beautiful Soup 非常適合初學者和小型項目，而 Scrapy 則適合大規模、複雜的抓取任務。透過遵循最佳實踐，您可以有效率、負責任地提取數據，釋放有價值的見解

註：AI輔助內容

以上是使用 Beautiful Soup 和 Scrapy 進行網頁抓取：有效率、負責任地擷取數據的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

對於哪些類型的操作，陣列比列表要快得多？May 07, 2025 am 12:01 AM

ArraySaresificatificallyfasterthanlistsForoperationsBenefiting fromDirectMemoryAcccccccCesandFixed-Sizestructures.1）conscessingElements：arraysprovideconstant-timeaccessduetocontoconcotigunmorystorage.2）iteration：araysleveragececacelocality.3）

說明列表和數組之間元素操作的性能差異。May 06, 2025 am 12:15 AM

ArraySareBetterForlement-WiseOperationsDuetofasterAccessCessCessCessCessCessCessCessAndOptimizedImplementations.1）ArrayshaveContiguucuulmemoryfordirectAccesscess.2）列出sareflexible butslible butslowerduetynemicizing.3）

如何有效地對整個Numpy陣列進行數學操作？May 06, 2025 am 12:15 AM

在NumPy中进行整个数组的数学运算可以通过向量化操作高效实现。1)使用简单运算符如加法（arr 2）可对数组进行运算。2)NumPy使用C语言底层库，提升了运算速度。3)可以进行乘法、除法、指数等复杂运算。4)需注意广播操作，确保数组形状兼容。5)使用NumPy函数如np.sum()能显著提高性能。

您如何將元素插入python數組中？May 06, 2025 am 12:14 AM

在Python中，向列表插入元素有兩種主要方法：1)使用insert(index,value)方法，可以在指定索引處插入元素，但在大列表開頭插入效率低；2)使用append(value)方法，在列表末尾添加元素，效率高。對於大列表，建議使用append()或考慮使用deque或NumPy數組來優化性能。

如何使Unix和Windows上的Python腳本可執行？May 06, 2025 am 12:13 AM

tomakeapythonscriptexecutableonbothunixandwindows：1）addashebangline（＃！/usr/usr/bin/envpython3）Andusechmod xtomakeitexecutableonix.2）onWindows，確保pytythonisinstalledandassionstalledandassociatedwith.pyfiles，oruseabatchfile（runun.batchfile（runitter）（rugitty.batt）

試圖運行腳本時，應該檢查一下是否會發現'找不到命令”錯誤？May 06, 2025 am 12:03 AM

當遇到“commandnotfound”錯誤時，應檢查以下幾點：1.確認腳本存在且路徑正確；2.檢查文件權限，必要時使用chmod添加執行權限；3.確保腳本解釋器已安裝並在PATH中；4.驗證腳本開頭的shebang行是否正確。這樣做可以有效解決腳本運行問題，確保編碼過程順利進行。

為什麼數組通常比存儲數值數據列表更高？May 05, 2025 am 12:15 AM

ArraySareAryallyMoremory-Moremory-forigationDataDatueTotheIrfixed-SizenatureAntatureAntatureAndirectMemoryAccess.1）arraysStorelelementsInAcontiguxufulock，ReducingOveringOverheadHeadefromenterSormetormetAdata.2）列表，通常

如何將Python列表轉換為Python陣列？May 05, 2025 am 12:10 AM

ToconvertaPythonlisttoanarray,usethearraymodule:1)Importthearraymodule,2)Createalist,3)Usearray(typecode,list)toconvertit,specifyingthetypecodelike'i'forintegers.Thisconversionoptimizesmemoryusageforhomogeneousdata,enhancingperformanceinnumericalcomp

See all articles