Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah BeautifulSoup boleh digunakan untuk mengekstrak data daripada jadual HTML dalam Python?
Dalam Python, BeautifulSoup menyediakan kaedah yang berkuasa untuk menghuraikan dokumen HTML. Apabila berhadapan dengan senario seperti ini di mana anda perlu mendapatkan semula data tertentu daripada jadual, BeautifulSoup amat berguna.
Untuk mengekstrak jadual item baris yang disasarkan, gunakan soup.find(), dengan menyatakan atribut yang sesuai dalam kurungan. Dalam kes ini, anda memerlukan:
<code class="python">table = soup.find("table", {"class": "lineItemsTable"})</code>
Seterusnya, anda boleh mengulangi setiap baris dalam jadual menggunakan table.findAll("tr"). Dalam setiap baris, anda boleh mengakses sel jadual (td) menggunakan row.findAll("td").
Berikut ialah coretan kod yang dipertingkatkan:
<code class="python">data = [] table_body = table.find('tbody') rows = table_body.find_all('tr') for row in rows: cols = row.find_all('td') cols = [ele.text.strip() for ele in cols] data.append([ele for ele in cols if ele]) # Remove empty values</code>
Kod ini akan menghasilkan senarai daripada senarai, dengan setiap subsenarai mewakili satu baris dalam jadual. Ia akan menangkap data yang diperlukan daripada tapak web dengan cekap.
Atas ialah kandungan terperinci Bagaimanakah BeautifulSoup boleh digunakan untuk mengekstrak data daripada jadual HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!