Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimanakah BeautifulSoup boleh digunakan untuk mengekstrak data daripada jadual HTML dalam Python?

Bagaimanakah BeautifulSoup boleh digunakan untuk mengekstrak data daripada jadual HTML dalam Python?

Patricia Arquette
Patricia Arquetteasal
2024-10-28 10:00:29971semak imbas

How can BeautifulSoup be used to extract data from a HTML table in Python?

BeautifulSoup Parsing Table

Dalam Python, BeautifulSoup menyediakan kaedah yang berkuasa untuk menghuraikan dokumen HTML. Apabila berhadapan dengan senario seperti ini di mana anda perlu mendapatkan semula data tertentu daripada jadual, BeautifulSoup amat berguna.

Untuk mengekstrak jadual item baris yang disasarkan, gunakan soup.find(), dengan menyatakan atribut yang sesuai dalam kurungan. Dalam kes ini, anda memerlukan:

<code class="python">table = soup.find("table", {"class": "lineItemsTable"})</code>

Seterusnya, anda boleh mengulangi setiap baris dalam jadual menggunakan table.findAll("tr"). Dalam setiap baris, anda boleh mengakses sel jadual (td) menggunakan row.findAll("td").

Berikut ialah coretan kod yang dipertingkatkan:

<code class="python">data = []
table_body = table.find('tbody')

rows = table_body.find_all('tr')
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    data.append([ele for ele in cols if ele])  # Remove empty values</code>

Kod ini akan menghasilkan senarai daripada senarai, dengan setiap subsenarai mewakili satu baris dalam jadual. Ia akan menangkap data yang diperlukan daripada tapak web dengan cekap.

Atas ialah kandungan terperinci Bagaimanakah BeautifulSoup boleh digunakan untuk mengekstrak data daripada jadual HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn