使用Python 進行編程式網頁抓取

簡介:網頁抓取是從網站擷取資料的流程,是一種用於數據分析和分析的寶貴技術。自動化。 Python 提供了一系列模組,使開發人員能夠有效地抓取網頁內容。

使用urllib2 和BeautifulSoup 進行網頁抓取

用於檢索每日日出/日落時間的特定目標從一個網站來看,urllib2 和BeautifulSoup 庫的結合是一個合適的解決方案。這些模組協同工作來獲取和解析網頁內容,使您能夠存取相關資訊。


給定的Python 程式碼提供了一個工作範例,說明如何使用此方法:

<code class="python">import urllib2
from BeautifulSoup import BeautifulSoup

# Fetch the web page
response = urllib2.urlopen('http://example.com')

# Parse the HTML content
soup = BeautifulSoup(response.read())

# Identify the desired table and rows
table = soup('table', {'class': 'spad'})[0]
rows = table.tbody('tr')

# Extract and print the date, sunrise, and sunset information
for row in rows:
    tds = row('td')
    print(tds[0].string, tds[1].string)</code>


  • urllib2.urlopen('http://example.com').read() 取得指定網站的HTML 內容。
  • BeautifulSoup(response.read()) 將 HTML 內容解析為結構化物件。
  • table = soup('table', {'class': 'spad'})[0] 依照其 class 屬性定位感興趣的表。
  • rows = table.tbody('tr ') 選擇日出/日落時間所在的表格行。
  • print(tds[0].string, tds[1].string) 擷取並列印日期和日出/日落時間。



