首页 >后端开发 >Python教程 >如何使用 Python BeautifulSoup 从 HTML 表中提取数据:解析停车票的综合指南?

如何使用 Python BeautifulSoup 从 HTML 表中提取数据:解析停车票的综合指南?

Susan Sarandon
Susan Sarandon原创
2024-10-30 12:54:03903浏览

How to Extract Data from HTML Tables using Python BeautifulSoup: A Comprehensive Guide to Parsing Parking Tickets?

Python BeautifulSoup 解析表:综合指南

使用 Python 的 BeautifulSoup 从 HTML 表格中提取数据时,了解如何解析具体的表格布局是至关重要的。在这种情况下,挑战在于从停车罚单网站解析“lineItemsTable”。

要提取罚单,请按照以下步骤操作:

<code class="python"># Retrieve the table element
table = soup.find("table", {"class": "lineItemsTable"})

# Initialize an empty list to store the tickets
data = []

# Iterate over each row in the table
for row in table.findAll("tr"):

    # Extract each cell in the row
    cells = row.findAll("td")

    # Clean the cell data and store it in a list
    cells = [cell.text.strip() for cell in cells]

    # If the row contains valid data, append it to the list
    if cells:
        data.append([cell for cell in cells if cell])</code>

此方法会生成一个列表列表,其中每个内部列表表示单个工单行的数据,不包括空值。以下是示例输出:

[[u'1359711259', u'SRF', u'08/05/2013', u'5310 4 AVE', u'K', u'19', u'125.00', u'$'],
[u'7086775850', u'PAS', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'125.00', u'$'],
[u'7355010165', u'OMT', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'145.00', u'$'],
[...]]

附加说明:

  • 最后一行可能包含有关付款金额的元数据。如果一行中的列数小于 7,则应将其丢弃。
  • 每行的最后一列包含一个需要单独处理的输入文本框。

以上是如何使用 Python BeautifulSoup 从 HTML 表中提取数据:解析停车票的综合指南?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn