Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Manipulasi data fail CSV menggunakan panda: langkah dan petua

Manipulasi data fail CSV menggunakan panda: langkah dan petua

王林
王林asal
2024-01-10 11:54:351344semak imbas

Manipulasi data fail CSV menggunakan panda: langkah dan petua

Langkah dan teknik menggunakan panda untuk membaca fail CSV untuk manipulasi data

Pengenalan:
Dalam analisis dan pemprosesan data, selalunya perlu membaca data daripada fail CSV dan melaksanakan operasi dan analisis selanjutnya. panda ialah perpustakaan Python yang berkuasa yang menyediakan satu set alat untuk pemprosesan dan analisis data, menjadikannya mudah untuk memproses dan memanipulasi fail CSV. Artikel ini akan memperkenalkan langkah dan teknik membaca fail CSV berdasarkan panda, dan memberikan contoh kod khusus.

1. Import perpustakaan panda
Sebelum menggunakan perpustakaan panda, anda perlu mengimport perpustakaan terlebih dahulu. Kita boleh mencapai ini melalui kod berikut:

import panda sebagai pd

2. Membaca fail CSV
Membaca fail CSV ialah fungsi penting panda. panda menyediakan fungsi read_csv(), yang boleh membaca fail CSV ke dalam objek DataFrame untuk memudahkan operasi dan analisis data seterusnya. Berikut ialah contoh kod asas untuk membaca fail CSV:

data = pd.read_csv('file.csv')

Dalam kod di atas, 'file.csv' ialah laluan ke fail CSV yang anda mahu baca . Selepas membaca, data akan disimpan dalam objek DataFrame bernama data.

3. Lihat data
Selepas membaca fail CSV, kita boleh menggunakan fungsi head() untuk melihat beberapa baris pertama data. Ini sangat membantu dalam memahami struktur data dan keperluan untuk pembersihan data. Berikut ialah contoh kod untuk melihat data:

print(data.head())

Kod ini akan mengeluarkan lima baris pertama data dalam data.

4. Pemprosesan dan operasi data
pandas menyediakan pelbagai fungsi dan kaedah untuk memproses dan mengendalikan data. Beberapa teknik pemprosesan data yang biasa digunakan akan diperkenalkan di bawah.

4.1 Penapisan data
Kami boleh menggunakan fungsi penapisan bersyarat yang disediakan oleh panda untuk menapis data yang kami perlukan dengan cepat. Sebagai contoh, jika kita ingin mencari data yang "bandar"nya ialah "Beijing" dalam data, kita boleh menggunakan kod berikut:

filtered_data = data[data['city'] == 'Beijing']

Dalam kod di atas, data[' City'] == 'Beijing' mengembalikan Siri Boolean, yang mewakili sama ada setiap baris data memenuhi syarat. Kemudian, kami menggunakan Siri Boolean ini sebagai indeks untuk menapis data yang memenuhi syarat dan menyimpannya dalam data_filter.

4.2 Isih data
pandas menyediakan fungsi sort_values() untuk mengisih data. Berikut ialah contoh kod untuk mengisih data dalam tertib menurun mengikut lajur "jualan":

data_sort = data.sort_values(by='sales', ascending=False)

Kod di atas akan mengisih data mengikut lajur "jualan" Isih dalam tertib menurun dan simpan hasil yang diisih dalam data_isih.

4.3 Pengumpulan dan pengagregatan data
pandas menyediakan fungsi groupby() dan fungsi agg(), yang boleh melaksanakan operasi pengumpulan dan pengagregatan data dengan mudah. Berikut ialah contoh kod untuk mengumpulkan data mengikut lajur "Bandar" dan mengira jumlah jualan setiap bandar:

data_berkumpulan = data.groupby('City').agg({'Sales':'sum'})

Kod di atas akan mengumpulkan data mengikut lajur "Bandar" dan menggunakan fungsi agg() untuk mengira jumlah jualan setiap kumpulan (bandar). Hasilnya akan disimpan dalam data_kumpulan.

5 Output data
Selepas memproses data, kami boleh mengeluarkan data ke fail CSV atau fail format lain. Gunakan fungsi to_csv() panda untuk mengeluarkan objek DataFrame sebagai fail CSV. Berikut ialah contoh kod yang mengeluarkan data_kumpulan sebagai fail CSV:

data_kumpulan.to_csv('data_kumpulan.csv')

Kod di atas mengeluarkan data_kumpulan sebagai fail CSV bernama 'data_kumpulan.csv'.

Kesimpulan:
Artikel ini memperkenalkan langkah asas dan teknik biasa untuk menggunakan panda untuk membaca fail CSV untuk manipulasi data, dan menyediakan contoh kod khusus. Dengan menguasai kemahiran ini, anda boleh membaca dan memproses fail CSV dengan mudah serta melakukan analisis data dan operasi data dengan cepat. Menggunakan perpustakaan panda boleh meningkatkan kecekapan pemprosesan data, menjadikan analisis data berfungsi dengan lebih mudah dan cekap.

Atas ialah kandungan terperinci Manipulasi data fail CSV menggunakan panda: langkah dan petua. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn