首頁  >  文章  >  後端開發  >  如何使用 BeautifulSoup 從紐約網站提取停車票資料?

如何使用 BeautifulSoup 從紐約網站提取停車票資料?

Patricia Arquette
Patricia Arquette原創
2024-10-27 00:57:30506瀏覽

How to Extract Parking Ticket Data from a NYC Website with BeautifulSoup?

使用 Python 的 BeautifulSoup 解析 HTML 表格

在處理網頁抓取專案時,了解如何有效地解析 HTML 表格至關重要。 BeautifulSoup 是一個流行的 Python 庫,它提供了一種從 HTML 文件中提取資料的強大方法。在本文中,我們將探討一個特定場景:使用 BeautifulSoup 解析 NYC 停車罰單表。

問題:

要學習 Python 的請求和 BeautifulSoup 庫,您需要我們的任務是編寫一個簡單的紐約停車罰單解析器。導覽至指定 URL 並獲得 HTML 回應後,您需要協助擷取「lineItemsTable」HTML 表格中列出的所有停車票。

如何解析表格:

解析表的關鍵在於利用BeautifulSoup的表解析功能。以下是完成此操作的修訂版Python 程式碼片段:

<code class="python">import requests
from bs4 import BeautifulSoup

plate = "T630134C"
plateRequest = requests.get(f"https://paydirect.link2gov.com/NYCParking-Plate/ItemSearch?PlateNumber={plate}")
soup = BeautifulSoup(plateRequest.text, "html.parser")

table = soup.find("table", {"class": "lineItemsTable"})
table_body = table.find("tbody")

rows = table_body.find_all("tr")
data = []
for row in rows:
    cols = row.find_all("td")
    cols = [col.text.strip() for col in cols]
    data.append([col for col in cols if col])</code>

附加說明:

  • 提取的資料中的最後一行包括「付款金額」標籤,它不是表格的一部分。您可以透過檢查行長度是否小於 7 來過濾掉此內容。
  • 每行的最後一列是需要特殊處理的輸入文字方塊。

透過以下操作步驟,您可以使用 BeautifulSoup 有效解析 NYC 停車罰單表,並提取項目所需的所有資訊。

以上是如何使用 BeautifulSoup 從紐約網站提取停車票資料?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn