Rumah >pembangunan bahagian belakang >Tutorial Python >Cara membaca dan memproses fail Excel menggunakan panda
Cara Pandas membaca fail Excel dan memproses data
Pengenalan:
Pandas ialah alat pemprosesan dan analisis data yang biasa digunakan Ia menyediakan pelbagai fungsi dan kaedah untuk memudahkan pengguna membersihkan, mengubah dan menganalisis data. Dalam kerja sebenar, kita selalunya perlu memproses fail data dalam format Excel Artikel ini akan memperkenalkan cara menggunakan Panda untuk membaca fail Excel dan memproses serta menganalisis data.
1. Pasang dan import perpustakaan Pandas
Sebelum bermula, kita perlu memasang perpustakaan Pandas terlebih dahulu. Anda boleh menggunakan arahan berikut untuk memasang Pandas melalui pip:
pip install pandas
Selepas pemasangan selesai, anda boleh mengimport perpustakaan Pandas melalui kod berikut:
import pandas as pd
2. Baca fail Excel
Terdapat dua kaedah yang biasa digunakan untuk membaca Excel fail: read_excel() dan read_csv(). Dalam artikel ini, kami akan menggunakan kaedah read_excel() untuk membaca fail Excel.
Andaikan fail Excel kami dinamakan data.xlsx dan mengandungi lembaran kerja bernama Sheet1. Kita boleh membaca fail Excel menggunakan kod berikut:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
Selepas bacaan selesai, data akan disimpan dalam objek DataFrame df.
3. Pemprosesan dan analisis data
Selepas membaca fail Excel, kita boleh menggunakan pelbagai fungsi dan kaedah Panda untuk membersihkan, menukar dan menganalisis data.
Lihat data
Anda boleh menggunakan kod berikut untuk melihat beberapa baris pertama data:
print(df.head())
Statistik asas
Anda boleh menggunakan fungsi describe() untuk melihat statistik asas data, seperti nilai minimum, nilai maksimum, nilai purata, dsb. :
print(df.describe())
Penapisan data
Anda boleh menggunakan kod berikut untuk menapis subset data yang memenuhi syarat:
subset = df[df['列名'] > 50] print(subset)
Isih data
Anda boleh menggunakan sort_values() berfungsi untuk mengisih data, seperti mengisih dalam tertib menaik mengikut lajur tertentu:
sorted_df = df.sort_values(by='列名', ascending=True) print(sorted_df)
Penghimpunan data
Anda boleh menggunakan fungsi groupby() untuk mengumpulkan data dan melaksanakan operasi pengagregatan, seperti jumlah, purata, dsb.:
grouped_df = df.groupby('列名').sum() print(grouped_df)
Visualisasi data
Anda boleh menggunakan fungsi plot() yang disediakan oleh Pandas untuk mengumpulkan data Lakukan visualisasi, seperti melukis carta lajur, carta garisan, dsb.:
df.plot(kind='bar', x='列名', y='列名')
4. Simpan keputusan
Selepas melengkapkan pemprosesan dan analisis data, kami boleh menggunakan kod berikut untuk menyimpan keputusan ke fail Excel:
df.to_excel('result.xlsx', index=False)
Ringkasan:
Artikel ini memperkenalkan cara menggunakan Panda untuk membaca fail Excel dan memproses data, dan memberikan contoh kod . Melalui fungsi dan kaedah Pandas yang berkuasa, kami boleh membersihkan, menukar dan menganalisis data Excel dengan mudah, meningkatkan kecekapan dan ketepatan pemprosesan data.
Di atas adalah pengenalan kepada cara Pandas membaca fail Excel dan memproses data saya harap ia akan membantu pembaca. Terima kasih kerana membaca!
Atas ialah kandungan terperinci Cara membaca dan memproses fail Excel menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!