Dalam beberapa tahun kebelakangan ini, dengan peningkatan populariti pemformatan, penyimpanan dan pemprosesan data komputer telah menjadi bahagian penting dalam pengurusan perusahaan moden. Sebagai alat teras untuk pemprosesan data, jadual mempunyai rangkaian aplikasi yang semakin luas. Pada komputer, kami boleh memproses jadual melalui perisian Excel, yang berkuasa, mudah digunakan dan fleksibel dalam operasi. Tetapi dalam beberapa senario, kita perlu menukar jadual dalam format Hypertext Markup Language (HTML) ke dalam format Excel, yang merupakan tugas yang sukar dan memakan masa untuk kebanyakan orang. Artikel ini akan memperkenalkan secara terperinci cara menukar jadual HTML kepada jadual Excel untuk meningkatkan kecekapan pemprosesan data untuk semua orang.
Pertama sekali, kita perlu memahami struktur sintaks asas jadual HTML. Jadual biasanya dibalut dengan teg
yang mengandungi banyak teg
Oleh itu, dalam proses menukar jadual HTML kepada jadual Excel, kita perlu beroperasi mengikut struktur ini.
Dari segi operasi khusus, kami boleh menggunakan perpustakaan panda dalam bahasa Python untuk menyelesaikan tugasan ini. Pandas ialah perpustakaan pemprosesan data yang cekap yang menyediakan pelbagai struktur dan alatan data, dan juga menyokong operasi membaca dan menulis dalam pelbagai format fail. Berikut ialah langkah pelaksanaan khusus kami:
Langkah 1: Pasang perpustakaan panda dan perpustakaan BeautifulSoup
Pertama, anda perlu memasang perpustakaan panda dan BeautifulSoup pada komputer anda. Anda boleh melengkapkan pemasangan melalui arahan berikut:
pip install pandas
pip install beautifulsoup4
Langkah 2: Baca kandungan jadual HTML
Yang berikut menggunakan fail HTML yang mengandungi jadual sebagai contoh untuk membaca kandungan jadual melalui perpustakaan BeautifulSoup. Pertama, kita perlu mengimport perpustakaan yang berkaitan:
import pandas as pd
from bs4 import BeautifulSoup
Kedua, kita perlu membaca kandungan fail HTML dan menghuraikan jadual. Langkah ini boleh diselesaikan melalui kod berikut:
# 读取HTML文件
with open('example.html') as fp:
soup = BeautifulSoup(fp)
# 获取表格内容
table = soup.find('table')
Dalam kod ini, kami membaca kandungan fail example.html melalui fungsi terbuka dan menyimpannya dalam fp pembolehubah. Selepas itu, kami menggunakan fungsi cari perpustakaan BeautifulSoup untuk mencari kandungan jadual dalam fail HTML dan menyimpannya dalam jadual berubah.
Langkah 3: Tukar kandungan jadual kepada DataFrame
Seterusnya, kita perlu menukar kandungan jadual ke dalam jenis DataFrame dalam perpustakaan panda untuk pemprosesan data seterusnya. Kandungan jadual boleh ditukar kepada DataFrame melalui kod berikut:
# 获取表格中的每一行内容
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [col.text.strip() for col in cols]
data.append(cols)
# 将表格内容转化为DataFrame
df = pd.DataFrame(data)
Dalam kod ini, kita mula-mula menggunakan fungsi find_all untuk mencari setiap baris dalam jadual, dan kemudian menggunakan gelung for untuk melintasi setiap sel bagi setiap baris, dan Kandungan teks dalam sel disimpan ke dalam senarai kol. Selepas itu, kami menambah senarai kol pada senarai data yang mewakili keseluruhan jadual, dan akhirnya menukar senarai data kepada jenis DataFrame.
Langkah 4: Output data sebagai fail Excel
Akhir sekali, kita perlu mengeluarkan data yang diproses sebagai fail Excel. Objek DataFrame boleh dikeluarkan sebagai fail Excel melalui kod berikut:
Dalam kod ini, kami menggunakan fungsi to_excel untuk menyimpan objek DataFrame ke dalam fail example.xlsx dan lumpuhkan lajur indeks (index= Palsu).
Ringkasnya, melalui langkah di atas, kami telah menyelesaikan proses menukar jadual HTML kepada jadual Excel. Walaupun kerja ini kelihatan membosankan, ia sebenarnya boleh disiapkan dengan cepat menggunakan Python dan perpustakaan panda, yang sangat meningkatkan kecekapan pemprosesan data. Dalam kerja sebenar, kami boleh melakukan operasi tersuai yang lebih terperinci mengikut keperluan untuk memenuhi pelbagai keperluan.
Atas ialah kandungan terperinci Tukar jadual html ke excel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn