Rumah >pembangunan bahagian belakang >Tutorial Python >Alat pemprosesan data: teknik yang cekap untuk membaca fail Excel dengan panda
Dengan peningkatan populariti pemprosesan data, semakin ramai orang memberi perhatian kepada cara menggunakan data dengan cekap dan menjadikan data berfungsi untuk diri mereka sendiri. Dalam pemprosesan data harian, jadual Excel sudah pasti format data yang paling biasa. Walau bagaimanapun, apabila sejumlah besar data perlu diproses, pengendalian Excel secara manual jelas akan menjadi sangat memakan masa dan susah payah. Oleh itu, artikel ini akan memperkenalkan alat pemprosesan data yang cekap - panda, dan cara menggunakan alat ini untuk membaca fail Excel dengan cepat dan melaksanakan pemprosesan data.
1. Pengenalan kepada panda
pandas ialah alat analisis data Python yang berkuasa yang menyediakan pelbagai fungsi pembacaan data, pemprosesan data dan analisis data. Struktur data utama panda ialah DataFrame dan Series, yang boleh membaca terus fail dalam format biasa seperti Excel dan CSV dan melaksanakan pelbagai operasi pemprosesan data. Oleh itu, panda digunakan secara meluas dalam bidang pemprosesan data dan dikenali sebagai salah satu alat arus perdana untuk analisis data Python.
2. Kaedah asas membaca fail Excel dalam panda
Dalam panda, fungsi utama untuk membaca fail Excel ialah read_excel, yang boleh membaca data dalam jadual Excel dan menukarnya menjadi objek DataFrame. Kodnya adalah seperti berikut:
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
Dalam kod di atas, test.xlsx ialah nama fail Excel untuk dibaca dan Helaian1 ialah nama Helaian untuk dibaca. Dengan cara ini, data ialah objek DataFrame, yang mengandungi data dalam jadual Excel.
3. Teknik yang cekap untuk membaca fail Excel dengan panda
Walaupun kaedah membaca asas panda telah menjimatkan banyak masa berbanding operasi manual Excel, apabila memproses data yang banyak, kami dapat mengoptimumkan lagi proses membaca Excel fail.
1. Gunakan parameter skiprows dan nrows
Kita boleh menggunakan parameter skiprows dan nrows untuk melangkau baris dalam jadual dan membaca bilangan baris yang ditentukan. Sebagai contoh, kod berikut boleh membaca data dari baris 2 hingga baris 1001 dalam jadual:
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, nrows=1000)
Dengan cara ini, kita hanya boleh membaca sebahagian daripada data, dengan itu menjimatkan masa membaca dan penggunaan memori.
2. Gunakan parameter usecols
Jika kita hanya memerlukan lajur data tertentu dalam jadual, kita boleh menggunakan parameter usecols untuk membaca hanya lajur yang ditentukan. Sebagai contoh, kod berikut hanya membaca lajur A dan B dalam jadual:
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', usecols=['A', 'B'])
Dengan cara ini, kita boleh fokus pada lajur data yang perlu diproses dan mengelakkan membaca data yang tidak diperlukan.
3. Gunakan parameter chunksize dan iterator
Apabila fail Excel dibaca besar, kita boleh menggunakan parameter chunksize dan iterator untuk membaca data dalam blok. Contohnya, kod berikut boleh membaca 1,000 baris data pada satu masa:
for i in pd.read_excel('test.xlsx', sheet_name='Sheet1', chunksize=1000): # 处理代码
Dengan cara ini, kita boleh membaca blok demi blok data dan memprosesnya dalam kelompok untuk meningkatkan kecekapan pemprosesan data.
4 Contoh lengkap
Berikut ialah kod contoh lengkap untuk panda membaca fail Excel Kod ini boleh membaca semua data dalam Helaian1 dalam test.xlsx, kemudian mengira jumlah lajur A dan B, dan hasil keluaran. :
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1') result = pd.DataFrame([{'sum_A': data['A'].sum(), 'sum_B': data['B'].sum()}]) result.to_excel('result.xlsx', index=False)
Dalam kod di atas, kami mula-mula membaca Helaian1 keseluruhan fail test.xlsx, kemudian menggunakan fungsi jumlah untuk mengira jumlah lajur A dan B, dan menyimpan hasilnya dalam objek DataFrame. Akhir sekali, kami menulis keputusan ke dalam hasil fail Excel baharu.xlsx, yang mengandungi hanya satu baris data, dengan lajur pertama ialah jumlah lajur A dan lajur kedua ialah jumlah lajur B.
Ringkasan
Melalui pengenalan di atas, kita dapat melihat bahawa menggunakan panda untuk membaca fail Excel boleh meningkatkan kecekapan pemprosesan data, dan proses membaca dan pemprosesan data boleh dioptimumkan lagi dengan bantuan pelbagai parameter dan kaedah lanjutan yang disediakan oleh panda. Oleh itu, dalam bidang analisis dan pemprosesan data, menggunakan panda adalah alat yang sangat cekap dan praktikal.
Atas ialah kandungan terperinci Alat pemprosesan data: teknik yang cekap untuk membaca fail Excel dengan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!