在數位時代,資料是寶貴的資產,網頁抓取已成為從網站提取資訊的重要工具。本文探討了兩個流行的 Web 抓取 Python 函式庫:Beautiful Soup 和 Scrapy。我們將深入研究它們的功能,提供即時工作程式碼範例,並討論負責任的網路抓取的最佳實踐。
Beautiful Soup 是一個 Python 函式庫,專為快速輕鬆的網頁抓取任務而設計。它對於解析 HTML 和 XML 文件並從中提取資料特別有用。 Beautiful Soup 提供了迭代、搜尋和修改解析樹的 Pythonic 慣用法。
要開始使用 Beautiful Soup,您需要將其與請求庫一起安裝:
pip install beautifulsoup4 requests
import requests from bs4 import BeautifulSoup # Fetch the web page url = 'https://example-blog.com' response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parse the HTML content soup = BeautifulSoup(response.text, 'html.parser') # Extract article titles titles = soup.find_all('h1', class_='entry-title') # Check if titles were found if titles: for title in titles: # Extract and print the text of each title print(title.get_text(strip=True)) else: print("No titles found. Please check the HTML structure and update the selector.") else: print(f"Failed to retrieve the page. Status code: {response.status_code}")
使用 pip 安裝 Scrapy:
pip install scrapy
為了示範 Scrapy,我們將建立一個蜘蛛來從網站上抓取報價:
Beautiful Soup 和 Scrapy 是強大的網頁抓取工具,各有其優勢。 Beautiful Soup 非常適合初學者和小型項目,而 Scrapy 則適合大規模、複雜的抓取任務。透過遵循最佳實踐,您可以有效率、負責任地提取數據,釋放有價值的見解
