Rumah >pembangunan bahagian belakang >Tutorial Python >Baca fail CSV dan lakukan analisis data menggunakan panda

Baca fail CSV dan lakukan analisis data menggunakan panda

王林
王林asal
2024-01-09 09:26:071577semak imbas

Baca fail CSV dan lakukan analisis data menggunakan panda

Panda ialah alat analisis data yang berkuasa yang boleh membaca dan memproses pelbagai jenis fail data dengan mudah. Antaranya, fail CSV ialah salah satu daripada format fail data yang paling biasa dan biasa digunakan. Artikel ini akan memperkenalkan cara menggunakan Panda untuk membaca fail CSV dan melakukan analisis data serta memberikan contoh kod khusus.

1. Import perpustakaan yang diperlukan
Pertama, kita perlu mengimport perpustakaan Pandas dan perpustakaan lain yang berkaitan yang mungkin diperlukan, seperti yang ditunjukkan di bawah:

import pandas as pd

2. Baca fail CSV
Gunakan fungsi read_csv() Pandas untuk baca fail CSV. Dalam fungsi tersebut, kami perlu menyediakan laluan ke fail CSV sebagai parameter, contohnya adalah seperti berikut:

data = pd.read_csv('data.csv')

Dalam kod di atas, kami menganggap bahawa nama fail CSV ialah data.csv dan diletakkan dalam direktori yang sama dengan fail kod Python. Anda boleh mengubah suai laluan mengikut situasi sebenar.

3. Memahami data
Sebelum menganalisis data, kita perlu terlebih dahulu memahami situasi asas data. Pandas menyediakan pelbagai kaedah untuk membantu kami mendapatkan maklumat berkaitan data dengan cepat.

  1. Lihat beberapa baris pertama data
    Kita boleh menggunakan fungsi head() untuk melihat beberapa baris pertama data 5 baris pertama dipaparkan secara lalai Lihat maklumat asas data
  2. Gunakan fungsi info() Anda boleh melihat maklumat asas data, termasuk jenis data setiap lajur, bilangan nilai bukan nol, dsb.:
    print(data.head())

  1. Lihat ringkasan statistik data
  2. Gunakan fungsi describe() untuk mendapatkan ringkasan statistik data, termasuk kiraan, purata dan standard Perbezaan, nilai minimum, 25%, median, 75%, nilai maksimum, dsb.:
    print(data.info())
  1. IV. Analisis data
    Sebelum menganalisis data, kami mungkin perlu melakukan beberapa prapemprosesan pada data, seperti memproses nilai yang hilang, Mengendalikan outlier, dsb. Adalah diandaikan di sini bahawa data telah dipraproses dan tiada nilai atau outlier yang hilang dalam data.
Berikut ialah contoh beberapa operasi analisis data yang biasa digunakan:


Kira jumlah lajur tertentu

Gunakan fungsi jumlah() untuk mengira jumlah lajur tertentu Contohnya adalah seperti berikut:

    print(data.describe())
  1. Dalam kod di atas, kami akan "column_name " dengan nama lajur sebenar yang akan dikira.
Kira purata lajur tertentu

Gunakan fungsi min() untuk mengira purata lajur tertentu Contohnya adalah seperti berikut:

    total = data['column_name'].sum()
    print('The total is:', total)

  1. Kira nilai maksimum dan minimum bagi lajur tertentu
  2. . Gunakan fungsi max() dan min() Nilai maksimum dan minimum bagi lajur tertentu boleh dikira secara berasingan Contohnya adalah seperti berikut:
    average = data['column_name'].mean()
    print('The average is:', average)

  1. Kira nilai unik lajur tertentu
  2. Gunakan. fungsi unique() untuk mengira nilai unik lajur tertentu Contohnya adalah seperti berikut:
    max_value = data['column_name'].max()
    min_value = data['column_name'].min()
    print('The maximum value is:', max_value)
    print('The minimum value is:', min_value)
  1. 5. Simpan Hasil
    Jika kita perlu menyimpan hasil analisis, kita boleh menggunakan fungsi to_csv(). untuk menyimpan keputusan sebagai fail CSV Contohnya adalah seperti berikut:
  2. unique_values = data['column_name'].unique()
    print('The unique values are:', unique_values)
Dalam kod di atas, kami menyimpan hasil analisis sebagai fail result.csv.


6. Ringkasan

Artikel ini memperkenalkan cara menggunakan Panda untuk membaca fail CSV dan melakukan analisis data. Kami mula-mula mengimport perpustakaan yang diperlukan, kemudian membaca fail CSV melalui fungsi read_csv() dan menggunakan fungsi head(), info() dan describe() untuk memahami situasi asas data. Seterusnya, kami menyediakan beberapa contoh operasi analisis data, termasuk mengira jumlah, purata, maksimum dan nilai minimum lajur, dan mengira nilai unik lajur. Akhir sekali, kami juga memperkenalkan cara menyimpan hasil analisis sebagai fail CSV. Saya harap artikel ini dapat membantu anda menjadi lebih selesa menggunakan Panda untuk analisis data.

Di atas ialah pengenalan tentang cara Pandas membaca fail CSV dan melakukan analisis data, saya harap ia akan membantu anda.

Atas ialah kandungan terperinci Baca fail CSV dan lakukan analisis data menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn