Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Cara membaca fail CSV menggunakan pustaka Pandas

Cara membaca fail CSV menggunakan pustaka Pandas

WBOY
WBOYasal
2024-01-04 10:08:341404semak imbas

Cara membaca fail CSV menggunakan pustaka Pandas

Cara membaca fail CSV dengan Pandas

Ikhtisar:
CSV (Nilai Dipisahkan Koma) ialah format fail hamparan biasa yang menggunakan koma atau aksara khusus lain sebagai pemisah untuk nilai medan. Pandas ialah perpustakaan pemprosesan data yang berkuasa yang boleh membaca, memproses dan menganalisis pelbagai fail data dengan mudah, termasuk fail CSV. Artikel ini akan memperkenalkan cara menggunakan pustaka Pandas untuk membaca fail CSV dan memberikan contoh kod khusus.

Langkah:

  1. Import perpustakaan yang diperlukan

    import pandas as pd

    Pertama, kita perlu mengimport perpustakaan Pandas.

  2. Baca fail CSV menggunakan fungsi read_csv Pandas

    data = pd.read_csv('file_path.csv')

    Dalam langkah ini, kami menggunakan fungsi read_csv untuk membaca fail CSV. Anda perlu menggantikan file_path.csv dengan laluan dan nama fail fail sebenar anda. Fungsi ini akan memuatkan kandungan fail ke dalam objek DataFrame bernama data.

Jika pemisah medan dalam fail CSV bukan koma, tetapi aksara lain, anda boleh menggunakan parameter sep untuk menentukan pemisah. Sebagai contoh, jika pembatas ialah koma bertitik, kodnya adalah seperti berikut:

data = pd.read_csv('file_path.csv', sep=';')
  1. Melihat data

    print(data.head())

    Dengan menggunakan fungsi kepala, kita boleh mencetak beberapa baris pertama set data untuk melihat data kandungan. Parameter lalai bagi fungsi kepala ialah 5, menunjukkan untuk mencetak lima baris data pertama.

  2. Memproses Data
    Setelah data dibaca ke dalam objek DataFrame, kita boleh menggunakan pelbagai fungsi dan kaedah yang disediakan oleh Pandas untuk memproses data. Berikut ialah beberapa contoh:
  • Lihat dimensi data (bilangan baris dan lajur)

    print(data.shape)

    Atribut bentuk boleh mengembalikan maklumat dimensi DataFrame, seperti (bilangan baris, bilangan lajur).

  • Lihat nama lajur

    print(data.columns)

    harta lajur boleh mengembalikan senarai nama lajur DataFrame.

  • Lihat ringkasan statistik data

    print(data.describe())

    Fungsi huraikan boleh mengembalikan maklumat ringkasan statistik data, termasuk min, sisihan piawai, nilai minimum, nilai maksimum, dsb.

  • Tapis data
    Sebagai contoh, kami boleh menapis data untuk mendapatkan subset data di bawah syarat-syarat tertentu:

    filtered_data = data[data['column_name'] > 10]

    Dalam contoh di atas, kami menapis data dengan nama lajur 'column_name' dengan nilai lebih daripada 10 .

  • Isih data

    sorted_data = data.sort_values(by='column_name', ascending=True)

    Dengan fungsi sort_values ​​​​, kita boleh mengisih data, mengisih mengikut nama lajur yang ditentukan, dan menentukan tertib menaik atau menurun.

  • Simpan data

    data.to_csv('new_file_path.csv', index=False)

    fungsi ke_csv boleh menyimpan objek DataFrame sebagai fail CSV baharu. Anda perlu menggantikan new_file_path.csv dengan nama fail dan laluan yang sebenarnya anda mahu simpan. Parameter index=False menunjukkan bahawa indeks data tidak disimpan.

Ringkasan:
Artikel ini memperkenalkan langkah-langkah cara menggunakan Panda untuk membaca fail CSV dan memberikan contoh kod khusus. Pandas menyediakan pelbagai fungsi dan kaedah yang boleh memproses dan menganalisis data dengan mudah. Dengan menggunakan ciri ini, kami boleh menggunakan data dalam fail CSV dengan lebih baik.

Atas ialah kandungan terperinci Cara membaca fail CSV menggunakan pustaka Pandas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn