집 >백엔드 개발 >파이썬 튜토리얼 >BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?

BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?

Patricia Arquette원래의: 2024-10-27 00:57:30661검색

How to Extract Parking Ticket Data from a NYC Website with BeautifulSoup?

Python의 BeautifulSoup으로 HTML 테이블 구문 분석

웹 스크래핑 프로젝트 작업 시 HTML 테이블을 효율적으로 구문 분석하는 방법을 아는 것이 중요합니다. 인기 있는 Python 라이브러리인 BeautifulSoup은 HTML 문서에서 데이터를 추출하는 강력한 방법을 제공합니다. 이 기사에서는 BeautifulSoup을 사용하여 NYC 주차 위반 딱지 테이블을 구문 분석하는 특정 시나리오를 살펴보겠습니다.

문제:

Python의 요청과 BeautifulSoup 라이브러리를 배우려면 간단한 NYC 주차 위반 딱지 파서를 작성하는 임무를 맡았습니다. 지정된 URL로 이동하여 HTML 응답을 얻은 후 "lineItemsTable" HTML 테이블에 나열된 모든 주차 위반 딱지를 추출하는 데 도움이 필요합니다.

테이블 구문 분석 방법:

테이블 구문 분석의 핵심은 BeautifulSoup의 테이블 구문 분석 기능을 활용하는 것입니다. 다음은 이를 수행하는 수정된 Python 코드 조각입니다.

<code class="python">import requests
from bs4 import BeautifulSoup

plate = "T630134C"
plateRequest = requests.get(f"https://paydirect.link2gov.com/NYCParking-Plate/ItemSearch?PlateNumber={plate}")
soup = BeautifulSoup(plateRequest.text, "html.parser")

table = soup.find("table", {"class": "lineItemsTable"})
table_body = table.find("tbody")

rows = table_body.find_all("tr")
data = []
for row in rows:
    cols = row.find_all("td")
    cols = [col.text.strip() for col in cols]
    data.append([col for col in cols if col])</code>

추가 참고 사항:

추출된 데이터의 마지막 행에는 "결제 금액"이 포함됩니다. 테이블의 일부가 아닌 레이블입니다. 행 길이가 7보다 작은지 확인하여 필터링할 수 있습니다.
각 행의 마지막 열은 특별한 처리가 필요한 입력 텍스트 상자입니다.

다음을 따르세요. 단계를 거치면 BeautifulSoup을 사용하여 NYC 주차 위반 딱지 테이블을 효과적으로 구문 분석하고 프로젝트에 필요한 모든 정보를 추출할 수 있습니다.

위 내용은 BeautifulSoup을 사용하여 NYC 웹사이트에서 주차권 데이터를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python less html beautifulsoup if for Filter using Length this column input table

성명：

이전 기사：\"모든 것이 객체\" 구현에서 Python과 Ruby는 어떻게 다른가요?다음 기사：\"모든 것이 객체\" 구현에서 Python과 Ruby는 어떻게 다른가요?