ホームページ  >  記事  >  バックエンド開発  >  BeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?

BeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?

Patricia Arquette
Patricia Arquetteオリジナル
2024-10-27 00:57:30564ブラウズ

How to Extract Parking Ticket Data from a NYC Website with BeautifulSoup?

Python の BeautifulSoup を使用した HTML テーブルの解析

Web スクレイピング プロジェクトで作業する場合、HTML テーブルを効率的に解析する方法を知ることが不可欠です。人気の Python ライブラリである BeautifulSoup は、HTML ドキュメントからデータを抽出する強力な方法を提供します。この記事では、BeautifulSoup を使用したニューヨーク市の駐車券テーブルの解析という特定のシナリオを検討します。

問題:

Python のリクエストと BeautifulSoup ライブラリを学習するには、 ' は、単純なニューヨーク市の駐車券パーサーを作成する任務を負っています。指定された URL に移動して HTML 応答を取得した後、「lineItemsTable」HTML テーブルにリストされているすべての駐車チケットを抽出する必要があります。

テーブルの解析方法:

テーブルを解析する鍵は、BeautifulSoup のテーブル解析機能を利用することにあります。これを実現する改訂された Python コード スニペットは次のとおりです。

<code class="python">import requests
from bs4 import BeautifulSoup

plate = "T630134C"
plateRequest = requests.get(f"https://paydirect.link2gov.com/NYCParking-Plate/ItemSearch?PlateNumber={plate}")
soup = BeautifulSoup(plateRequest.text, "html.parser")

table = soup.find("table", {"class": "lineItemsTable"})
table_body = table.find("tbody")

rows = table_body.find_all("tr")
data = []
for row in rows:
    cols = row.find_all("td")
    cols = [col.text.strip() for col in cols]
    data.append([col for col in cols if col])</code>

追加メモ:

  • 抽出されたデータの最後の行には、「支払額」が含まれています。ラベルはテーブルの一部ではありません。行の長さが 7 未満かどうかを確認することで、これを除外できます。
  • 各行の最後の列は、特別な処理が必要な入力テキスト ボックスです。

次のようにします。この手順を実行すると、BeautifulSoup を使用してニューヨーク市の駐車券テーブルを効果的に解析し、プロジェクトに必要な情報をすべて抽出できます。

以上がBeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。