首頁  >  文章  >  後端開發  >  如何使用 Python BeautifulSoup 從 HTML 表中提取資料:解析停車票的綜合指南?

如何使用 Python BeautifulSoup 從 HTML 表中提取資料:解析停車票的綜合指南?

Susan Sarandon
Susan Sarandon原創
2024-10-30 12:54:03799瀏覽

How to Extract Data from HTML Tables using Python BeautifulSoup: A Comprehensive Guide to Parsing Parking Tickets?

Python BeautifulSoup 解析表:綜合指南

使用Python 的BeautifulSoup 從HTML 表格中提取資料時,了解如何解析具體的表格佈局是至關重要的。在這種情況下,挑戰在於從停車罰單網站解析「lineItemsTable」。

要提取罰單,請按照以下步驟操作:

<code class="python"># Retrieve the table element
table = soup.find("table", {"class": "lineItemsTable"})

# Initialize an empty list to store the tickets
data = []

# Iterate over each row in the table
for row in table.findAll("tr"):

    # Extract each cell in the row
    cells = row.findAll("td")

    # Clean the cell data and store it in a list
    cells = [cell.text.strip() for cell in cells]

    # If the row contains valid data, append it to the list
    if cells:
        data.append([cell for cell in cells if cell])</code>

此方法會產生一個列表列表,其中每個內部列表表示單一工單行的數據,不包括空值。以下是範例輸出:

[[u'1359711259', u'SRF', u'08/05/2013', u'5310 4 AVE', u'K', u'19', u'125.00', u'$'],
[u'7086775850', u'PAS', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'125.00', u'$'],
[u'7355010165', u'OMT', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'145.00', u'$'],
[...]]

附加說明:

  • 最後一行可能包含付款金額的元資料。如果一行中的列數小於 7,則應丟棄。
  • 每行的最後一列包含一個需要單獨處理的輸入文字方塊。

以上是如何使用 Python BeautifulSoup 從 HTML 表中提取資料:解析停車票的綜合指南?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn