Rumah >pembangunan bahagian belakang >Tutorial Python >Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

王林
王林asal
2024-01-24 10:53:211273semak imbas

Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

Optimumkan proses pemprosesan data: Petua Pandas untuk membaca fail Excel

Pengenalan:
Dalam proses analisis dan pemprosesan data, Excel ialah salah satu sumber data yang paling biasa. Walau bagaimanapun, membaca dan memproses fail Excel selalunya tidak cekap, terutamanya apabila jumlah data adalah besar. Untuk tujuan ini, artikel ini akan memperkenalkan cara menggunakan perpustakaan Pandas Python untuk mengoptimumkan proses pembacaan dan pemprosesan data, dan menyediakan contoh kod khusus.

1. Pengenalan kepada perpustakaan Pandas
Pandas ialah perpustakaan pemprosesan data yang berkuasa Ia menyediakan struktur data yang mudah dan cekap, seperti Siri dan Bingkai Data, serta kaedah dan fungsi pemprosesan data yang kaya. Struktur data teras pustaka Pandas ialah DataFrame, yang serupa dengan jadual dua dimensi dalam Excel dan boleh memudahkan manipulasi dan analisis data.

2. Pasang dan import perpustakaan Pandas
Sebelum menggunakan Pandas, anda perlu memasang perpustakaan Pandas terlebih dahulu. Pustaka Pandas boleh dipasang dengan mudah menggunakan arahan pip:

pip install pandas

Selepas pemasangan selesai, anda boleh mengimport perpustakaan Pandas dalam skrip Python:

import pandas as pd

3. Pandas membaca fail Excel
Panda menyediakan pelbagai kaedah untuk membaca Fail Excel. Terdapat dua yang paling biasa digunakan: read_excel() dan to_excel(). Kaedah

  1. read_excel()
    read_excel() boleh membaca fail Excel dan menukarnya menjadi objek DataFrame. Berikut ialah contoh mudah membaca fail Excel:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

    Di mana, 'data.xlsx' ialah nama fail Excel yang hendak dibaca dan 'Sheet1' ialah nama lembaran kerja yang hendak dibaca. Jika sheet_name tidak dinyatakan, lembaran kerja pertama dibaca secara lalai. Kaedah

  2. to_excel()
    to_excel() digunakan untuk menyimpan objek DataFrame sebagai fail Excel. Berikut ialah contoh:

    df.to_excel('data_processed.xlsx', sheet_name='Sheet1', index=False)

    Di mana, 'data_processed.xlsx' ialah nama fail Excel untuk disimpan dan 'Sheet1' ialah nama lembaran kerja untuk disimpan. index=False bermaksud tidak menyimpan indeks DataFrame ke Excel.

4 Optimumkan proses pemprosesan data
Apabila membaca dan memproses fail Excel, terdapat beberapa teknik biasa yang boleh meningkatkan kecekapan dan kebolehbacaan kod.

  1. Nyatakan lajur yang hendak dibaca
    Jika terdapat banyak lajur dalam fail Excel, tetapi kami hanya memerlukan beberapa lajur, kami hanya boleh membaca lajur tertentu dengan menyatakan parameter usecols. Contohnya adalah seperti berikut:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1', usecols=['列1', '列2', '列3'])
  2. Langkau baris dan lajur yang tidak berguna
    Apabila membaca fail Excel, kadangkala anda perlu melangkau beberapa baris atau lajur yang tidak berguna. Ini boleh dicapai dengan menentukan parameter skiprow dan skip_columns. Contohnya adalah seperti berikut:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1', skiprows=3, skip_columns=[0])

    skiprows bermaksud melangkau beberapa baris pertama, dan skip_columns bermaksud melangkau lajur yang ditentukan.

  3. Pembersihan dan pemprosesan data
    Selepas membaca fail Excel, data biasanya perlu dibersihkan dan diproses. Pandas menyediakan satu siri kaedah dan fungsi untuk melaksanakan pelbagai operasi pemprosesan data, seperti penapisan data, pengisihan, penggabungan, pemisahan, dsb.
  4. Gabung berbilang lembaran kerja
    Jika fail Excel mengandungi berbilang lembaran kerja, anda boleh menggunakan kaedah pandas.concat() untuk menggabungkan lembaran kerja ini. Contohnya adalah seperti berikut:

    dfs = []
    for sheet_name in ['Sheet1', 'Sheet2', 'Sheet3']:
     df = pd.read_excel('data.xlsx', sheet_name=sheet_name)
     dfs.append(df)
    combined_df = pd.concat(dfs)

    Kod di atas membaca dan menyimpan setiap lembaran kerja dalam fail Excel ke dalam senarai, dan kemudian menggabungkannya ke dalam objek DataFrame melalui kaedah pd.concat().

5. Kesimpulan
Artikel ini memperkenalkan teknik menggunakan perpustakaan Pandas untuk mengoptimumkan proses pemprosesan data, termasuk membaca fail Excel, menyimpan fail Excel dan mengoptimumkan proses pemprosesan data. Pandas menyediakan pelbagai kaedah dan fungsi untuk memproses sejumlah besar data, membantu kami menganalisis dan memproses data dengan lebih cekap. Saya harap artikel ini akan membantu semua orang dalam proses pemprosesan data.

Nota: Contoh kod di atas adalah untuk rujukan sahaja Dalam aplikasi sebenar, pelarasan yang sesuai perlu dibuat berdasarkan syarat khusus data.

Atas ialah kandungan terperinci Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn