>백엔드 개발 >파이썬 튜토리얼 >BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?

BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-27 00:57:30571검색

How to Extract Parking Ticket Data from a NYC Website with BeautifulSoup?

Python의 BeautifulSoup으로 HTML 테이블 구문 분석

웹 스크래핑 프로젝트 작업 시 HTML 테이블을 효율적으로 구문 분석하는 방법을 아는 것이 중요합니다. 인기 있는 Python 라이브러리인 BeautifulSoup은 HTML 문서에서 데이터를 추출하는 강력한 방법을 제공합니다. 이 기사에서는 BeautifulSoup을 사용하여 NYC 주차 위반 딱지 테이블을 구문 분석하는 특정 시나리오를 살펴보겠습니다.

문제:

Python의 요청과 BeautifulSoup 라이브러리를 배우려면 간단한 NYC 주차 위반 딱지 파서를 작성하는 임무를 맡았습니다. 지정된 URL로 이동하여 HTML 응답을 얻은 후 "lineItemsTable" HTML 테이블에 나열된 모든 주차 위반 딱지를 추출하는 데 도움이 필요합니다.

테이블 구문 분석 방법:

테이블 구문 분석의 핵심은 BeautifulSoup의 테이블 구문 분석 기능을 활용하는 것입니다. 다음은 이를 수행하는 수정된 Python 코드 조각입니다.

<code class="python">import requests
from bs4 import BeautifulSoup

plate = "T630134C"
plateRequest = requests.get(f"https://paydirect.link2gov.com/NYCParking-Plate/ItemSearch?PlateNumber={plate}")
soup = BeautifulSoup(plateRequest.text, "html.parser")

table = soup.find("table", {"class": "lineItemsTable"})
table_body = table.find("tbody")

rows = table_body.find_all("tr")
data = []
for row in rows:
    cols = row.find_all("td")
    cols = [col.text.strip() for col in cols]
    data.append([col for col in cols if col])</code>

추가 참고 사항:

  • 추출된 데이터의 마지막 행에는 "결제 금액"이 포함됩니다. 테이블의 일부가 아닌 레이블입니다. 행 길이가 7보다 작은지 확인하여 필터링할 수 있습니다.
  • 각 행의 마지막 열은 특별한 처리가 필요한 입력 텍스트 상자입니다.

다음을 따르세요. 단계를 거치면 BeautifulSoup을 사용하여 NYC 주차 위반 딱지 테이블을 효과적으로 구문 분석하고 프로젝트에 필요한 모든 정보를 추출할 수 있습니다.

위 내용은 BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.