ホームページ >バックエンド開発 >Python チュートリアル >Python を使用して HTML テーブルからデータを抽出する方法 BeautifulSoup: 駐車券を解析するための包括的なガイド?

Python を使用して HTML テーブルからデータを抽出する方法 BeautifulSoup: 駐車券を解析するための包括的なガイド?

Susan Sarandon
Susan Sarandonオリジナル
2024-10-30 12:54:03904ブラウズ

How to Extract Data from HTML Tables using Python BeautifulSoup: A Comprehensive Guide to Parsing Parking Tickets?

Python BeautifulSoup 解析テーブル: 総合ガイド

Python の BeautifulSoup を使用して HTML テーブルからデータを抽出する場合、特定のテーブル レイアウトを解析する方法を理解する必要があります。重要な。このシナリオでは、駐車チケットの Web サイトから「lineItemsTable」を解析することが課題となります。

チケットを抽出するには、次の手順に従います。

<code class="python"># Retrieve the table element
table = soup.find("table", {"class": "lineItemsTable"})

# Initialize an empty list to store the tickets
data = []

# Iterate over each row in the table
for row in table.findAll("tr"):

    # Extract each cell in the row
    cells = row.findAll("td")

    # Clean the cell data and store it in a list
    cells = [cell.text.strip() for cell in cells]

    # If the row contains valid data, append it to the list
    if cells:
        data.append([cell for cell in cells if cell])</code>

このアプローチにより、次のリストが生成されます。リスト。各内部リストは、空の値を除いた単一のチケット行のデータを表します。出力例は次のとおりです。

[[u'1359711259', u'SRF', u'08/05/2013', u'5310 4 AVE', u'K', u'19', u'125.00', u'$'],
[u'7086775850', u'PAS', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'125.00', u'$'],
[u'7355010165', u'OMT', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'145.00', u'$'],
[...]]

追加メモ:

  • 最後の行には、支払い金額に関するメタデータが含まれる場合があります。行の列数が 7 未満の場合、その列は破棄されます。
  • 各行の最後の列には、個別に処理する必要がある入力テキスト ボックスが含まれています。

以上がPython を使用して HTML テーブルからデータを抽出する方法 BeautifulSoup: 駐車券を解析するための包括的なガイド?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。