ホームページ >バックエンド開発 >Python チュートリアル >BeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?

BeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?

Patricia Arquetteオリジナル: 2024-10-27 00:57:30662ブラウズ

How to Extract Parking Ticket Data from a NYC Website with BeautifulSoup?

Python の BeautifulSoup を使用した HTML テーブルの解析

Web スクレイピングプロジェクトで作業する場合、HTML テーブルを効率的に解析する方法を知ることが不可欠です。人気の Python ライブラリである BeautifulSoup は、HTML ドキュメントからデータを抽出する強力な方法を提供します。この記事では、BeautifulSoup を使用したニューヨーク市の駐車券テーブルの解析という特定のシナリオを検討します。

問題:

Python のリクエストと BeautifulSoup ライブラリを学習するには、 ' は、単純なニューヨーク市の駐車券パーサーを作成する任務を負っています。指定された URL に移動して HTML 応答を取得した後、「lineItemsTable」HTML テーブルにリストされているすべての駐車チケットを抽出する必要があります。

テーブルの解析方法:

テーブルを解析する鍵は、BeautifulSoup のテーブル解析機能を利用することにあります。これを実現する改訂された Python コードスニペットは次のとおりです。

<code class="python">import requests
from bs4 import BeautifulSoup

plate = "T630134C"
plateRequest = requests.get(f"https://paydirect.link2gov.com/NYCParking-Plate/ItemSearch?PlateNumber={plate}")
soup = BeautifulSoup(plateRequest.text, "html.parser")

table = soup.find("table", {"class": "lineItemsTable"})
table_body = table.find("tbody")

rows = table_body.find_all("tr")
data = []
for row in rows:
    cols = row.find_all("td")
    cols = [col.text.strip() for col in cols]
    data.append([col for col in cols if col])</code>

追加メモ:

抽出されたデータの最後の行には、「支払額」が含まれています。ラベルはテーブルの一部ではありません。行の長さが 7 未満かどうかを確認することで、これを除外できます。
各行の最後の列は、特別な処理が必要な入力テキストボックスです。

次のようにします。この手順を実行すると、BeautifulSoup を使用してニューヨーク市の駐車券テーブルを効果的に解析し、プロジェクトに必要な情報をすべて抽出できます。

以上がBeautifulSoupを使用してニューヨーク市のWebサイトから駐車券データを抽出する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python less html beautifulsoup if for Filter using Length this column input table

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python と Ruby は、「すべてのものはオブジェクト」の実装においてどのように異なりますか?次の記事：Python と Ruby は、「すべてのものはオブジェクト」の実装においてどのように異なりますか?

続きを見る