Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk membaca fail csv dengan panda
Kaedah untuk membaca fail CSV termasuk menggunakan fungsi read_csv(), menentukan pembatas, menentukan nama lajur, melangkau baris, mengendalikan nilai yang hilang, jenis data tersuai, dsb. Pengenalan terperinci: 1. Fungsi read_csv() ialah kaedah yang paling biasa digunakan untuk membaca fail CSV dalam Panda. Ia boleh memuatkan data CSV daripada sistem fail tempatan atau URL jauh dan mengembalikan objek DataFrame 2. Tentukan pembatas Secara lalai, fungsi read_csv() akan menggunakan koma sebagai pembatas untuk fail CSV, dsb.
Sistem pengendalian tutorial ini: sistem Windows 10, Python versi 3.11.4, komputer Dell G3.
Pandas ialah alat pemprosesan dan analisis data yang berkuasa yang digunakan secara meluas dalam bidang sains data dan pembelajaran mesin. Ia menyediakan banyak kaedah yang berkuasa tetapi mudah digunakan untuk membaca dan memproses pelbagai jenis fail data. Antaranya, membaca dan memproses fail CSV adalah fungsi penting Pandas.
Kaedah dan teknik bacaan biasa
Pertama, kita perlu memasang perpustakaan Pandas. Pandas boleh dipasang dengan melaksanakan arahan berikut dalam terminal atau command prompt menggunakan arahan pip:
pip install pandas
Selepas pemasangan selesai, kami boleh mengimport pustaka Pandas dalam skrip Python dan mula membaca fail CSV.
import pandas as pd
Panda menyediakan pelbagai kaedah untuk membaca fail CSV. Di bawah adalah beberapa kaedah yang biasa digunakan.
1. Gunakan fungsi read_csv()
Fungsi read_csv() ialah kaedah yang paling biasa digunakan untuk membaca fail CSV dalam Pandas. Ia boleh memuatkan data CSV daripada sistem fail tempatan atau URL jauh dan mengembalikan objek DataFrame.
df = pd.read_csv('data.csv')
Kod di atas akan membaca data daripada fail data.csv dalam direktori kerja semasa dan menyimpannya dalam objek DataFrame bernama df. Jika fail CSV terletak dalam direktori lain, laluan fail penuh boleh disediakan.
2. Tentukan pembatas
Secara lalai, fungsi read_csv() akan menggunakan koma sebagai pembatas untuk fail CSV. Jika fail CSV menggunakan pembatas lain, ia boleh ditentukan melalui parameter sep.
df = pd.read_csv('data.csv', sep=';')
Kod di atas akan membaca fail CSV menggunakan koma bertitik sebagai pembatas.
3. Tentukan nama lajur
Jika fail CSV tidak mempunyai nama lajur atau nama lajur tidak memenuhi keperluan, anda boleh menentukan nama lajur tersuai melalui parameter nama.
df = pd.read_csv('data.csv', names=['column1', 'column2', 'column3'])
Kod di atas akan membaca fail CSV menggunakan nama lajur tersuai.
4. Langkau baris
Kadangkala, baris pertama atau beberapa baris pertama fail CSV adalah maklumat yang tidak berkaitan dan baris ini boleh dilangkau melalui parameter skiprows.
df = pd.read_csv('data.csv', skiprows=3)
Kod di atas akan melangkau tiga baris pertama fail CSV dan membaca data seterusnya.
5. Pemprosesan nilai hilang
Mungkin terdapat nilai yang hilang dalam fail CSV Anda boleh menentukan perwakilan nilai yang hilang melalui parameter na_values.
df = pd.read_csv('data.csv', na_values=['NA', 'NaN'])
Kod di atas akan mengenal pasti semua 'NA' dan 'NaN' sebagai nilai yang tiada.
6 Jenis data tersuai
Kadangkala, beberapa lajur dalam fail CSV perlu diproses dengan jenis data tertentu Anda boleh menentukan jenis data setiap lajur melalui parameter dtype.
df = pd.read_csv('data.csv', dtype={'column1': int, 'column2': float})
Kod di atas akan menetapkan jenis data lajur1 kepada integer dan jenis data lajur2 kepada titik terapung.
Di atas ialah beberapa kaedah dan teknik yang biasa digunakan untuk membaca fail CSV dengan Panda. Dengan menggunakan kaedah ini secara fleksibel, pelbagai jenis fail CSV boleh dibaca dan diproses dengan mudah, dan analisis dan pemprosesan data selanjutnya boleh dilakukan.
Atas ialah kandungan terperinci Bagaimana untuk membaca fail csv dengan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!