Rumah >pembangunan bahagian belakang >Tutorial Python >Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda

Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda

WBOY
WBOYasal
2024-01-24 10:50:061862semak imbas

Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda

Pustaka Pandas ialah salah satu alat pemprosesan dan analisis data yang paling biasa digunakan dalam Python. Ia menyediakan set struktur dan fungsi data yang kaya yang boleh memproses dan menganalisis set data berskala besar dengan cekap. Artikel ini akan memperkenalkan secara terperinci cara mengimport dan menggunakan pustaka Pandas serta memberikan contoh kod khusus.

1. Mengimport pustaka Pandas
Mengimport pustaka Pandas adalah sangat mudah Anda hanya perlu menambah baris pernyataan import dalam kod:

import panda sebagai pd
Barisan kod ini akan mengimport keseluruhan pustaka dan nama Pandas. it pd , iaitu cara konvensional untuk menggunakan perpustakaan Pandas.

2. Struktur data Pandas
Pustaka Pandas menyediakan dua struktur data utama: Siri dan DataFrame.

  1. Siri
    Siri ialah tatasusunan berlabel satu dimensi yang boleh memuatkan sebarang jenis data (integer, nombor titik terapung, rentetan, dll.), serupa dengan tatasusunan NumPy dengan indeks. Siri A boleh dibuat dengan cara berikut:

data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
Kod ini akan mengeluarkan keputusan berikut:

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 ​​​​8.0
dtype: float64
Siri mempunyai indeks di sebelah kiri dan nilai di sebelah kanan. Elemen dalam Siri boleh diakses dan dimanipulasi menggunakan indeks.

  1. DataFrame
    DataFrame ialah struktur data jadual dua dimensi, serupa dengan jadual dalam pangkalan data hubungan. DataFrame boleh dibuat oleh:

data = {'name': ['Alice', 'Bob', 'Charlie'],

    'age': [25, 26, 27],
    'score': [90, 92, 85]}

df = pd.DataFrame(data)
print(df)
this The coretan kod akan mengeluarkan keputusan berikut:

name  age  score

0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
Nama lajur DataFrame ada di atas, dan setiap lajur boleh mempunyai jenis data yang berbeza. Data dalam DataFrame boleh diakses dan dimanipulasi menggunakan nama lajur dan indeks baris.

3 Membaca dan menulis data
Pustaka Pandas menyokong membaca data daripada pelbagai sumber data, termasuk pangkalan data CSV, Excel, SQL, dll. Anda boleh menggunakan kaedah berikut untuk membaca dan menulis data:

  1. Baca fail CSV
    df = pd.read_csv('data.csv')
    Antaranya, data.csv ialah fail CSV untuk dibaca, menggunakan read_csv( ) kaedah Data daripada fail CSV boleh dibaca sebagai DataFrame.
  2. Baca fail Excel
    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
    Antaranya, data.xlsx ialah fail Excel untuk dibaca dan parameter sheet_name menentukan nama lembaran kerja untuk dibaca.
  3. Baca pangkalan data SQL
    import sqlite3
    conn = sqlite3.connect('database.db')
    query = 'SELECT * FROM table_name'
    df = pd.read_sql(query, conn)
    Antaranya, database.db ialah menjadi Fail pangkalan data SQL baca, table_name ialah nama jadual untuk dibaca, dan kaedah read_sql() boleh digunakan untuk melaksanakan pertanyaan SQL dan membaca hasilnya ke dalam DataFrame.
  4. Tulis data
    df.to_csv('output.csv')
    Anda boleh menggunakan kaedah to_csv() untuk menulis data dalam DataFrame ke fail CSV.

4 Pembersihan dan Transformasi Data
Pustaka Pandas menyediakan pelbagai fungsi dan kaedah untuk pembersihan dan transformasi data, termasuk pemprosesan nilai yang hilang, penapisan data, pengisihan data, dsb.

  1. Pemprosesan nilai yang tiada
    df.dropna(): Padamkan baris atau lajur yang mengandungi nilai yang tiada
    df.fillna(nilai): Isikan nilai yang tiada dengan nilai yang ditentukan
    df.interpolate(): Berasaskan interpolasi linear pada nilai yang diketahui Mengisi nilai yang tiada
  2. Penapisan data
    df[df['umur'] > 25]: Tapis baris dengan umur lebih daripada 25
    df[(df['umur'] > 25) & (df[' score'] > ; 90)]: Tapis baris dengan umur lebih daripada 25 dan markah lebih daripada 90
  3. Isih data
    df.sort_values(by='score', ascending=False): Isih mengikut skor dalam tertib menurun
    df. sort_index(): Isih mengikut indeks
    5. Analisis Data dan Statistik
    Pustaka Pandas menyediakan pelbagai fungsi dan kaedah statistik yang boleh digunakan untuk analisis dan pengiraan data.
  4. Statistik deskriptif
    df.describe(): Kira statistik deskriptif setiap lajur, termasuk min, sisihan piawai, nilai minimum, nilai maksimum, dll.
  5. Penggabungan data
    df.groupby('name').sum() :Kumpulkan mengikut nama dan kira jumlah setiap kumpulan
  6. Pengiraan kumulatif
    df.cumsum(): Kira jumlah kumulatif setiap lajur
  7. Analisis korelasi
    df.corr(): Kira pekali korelasi antara lajur
    df (): Kira kovarians antara lajur

Di atas hanyalah sebahagian daripada fungsi dan penggunaan pustaka Pandas Untuk penggunaan yang lebih terperinci, sila rujuk dokumentasi rasmi Pandas. Dengan menggunakan fungsi yang disediakan oleh perpustakaan Pandas secara fleksibel, pemprosesan dan analisis data boleh dilakukan dengan cekap, dan sokongan padu boleh disediakan untuk pembelajaran mesin dan kerja perlombongan data yang seterusnya.

Atas ialah kandungan terperinci Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn