Rumah >pembangunan bahagian belakang >Tutorial Python >Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda

Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-01-24 10:50:061932semak imbas

Pustaka Pandas ialah salah satu alat pemprosesan dan analisis data yang paling biasa digunakan dalam Python. Ia menyediakan set struktur dan fungsi data yang kaya yang boleh memproses dan menganalisis set data berskala besar dengan cekap. Artikel ini akan memperkenalkan secara terperinci cara mengimport dan menggunakan pustaka Pandas serta memberikan contoh kod khusus.

1. Mengimport pustaka Pandas
Mengimport pustaka Pandas adalah sangat mudah Anda hanya perlu menambah baris pernyataan import dalam kod:

import panda sebagai pd
Barisan kod ini akan mengimport keseluruhan pustaka dan nama Pandas. it pd , iaitu cara konvensional untuk menggunakan perpustakaan Pandas.

2. Struktur data Pandas
Pustaka Pandas menyediakan dua struktur data utama: Siri dan DataFrame.

Siri
Siri ialah tatasusunan berlabel satu dimensi yang boleh memuatkan sebarang jenis data (integer, nombor titik terapung, rentetan, dll.), serupa dengan tatasusunan NumPy dengan indeks. Siri A boleh dibuat dengan cara berikut:

data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
Kod ini akan mengeluarkan keputusan berikut:

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
Siri mempunyai indeks di sebelah kiri dan nilai di sebelah kanan. Elemen dalam Siri boleh diakses dan dimanipulasi menggunakan indeks.

DataFrame
DataFrame ialah struktur data jadual dua dimensi, serupa dengan jadual dalam pangkalan data hubungan. DataFrame boleh dibuat oleh:

data = {'name': ['Alice', 'Bob', 'Charlie'],

    'age': [25, 26, 27],
    'score': [90, 92, 85]}

df = pd.DataFrame(data)
print(df)
this The coretan kod akan mengeluarkan keputusan berikut:

name  age  score

0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
Nama lajur DataFrame ada di atas, dan setiap lajur boleh mempunyai jenis data yang berbeza. Data dalam DataFrame boleh diakses dan dimanipulasi menggunakan nama lajur dan indeks baris.

3 Membaca dan menulis data
Pustaka Pandas menyokong membaca data daripada pelbagai sumber data, termasuk pangkalan data CSV, Excel, SQL, dll. Anda boleh menggunakan kaedah berikut untuk membaca dan menulis data:

Baca fail CSV
df = pd.read_csv('data.csv')
Antaranya, data.csv ialah fail CSV untuk dibaca, menggunakan read_csv( ) kaedah Data daripada fail CSV boleh dibaca sebagai DataFrame.
Baca fail Excel
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
Antaranya, data.xlsx ialah fail Excel untuk dibaca dan parameter sheet_name menentukan nama lembaran kerja untuk dibaca.
Baca pangkalan data SQL
import sqlite3
conn = sqlite3.connect('database.db')
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, conn)
Antaranya, database.db ialah menjadi Fail pangkalan data SQL baca, table_name ialah nama jadual untuk dibaca, dan kaedah read_sql() boleh digunakan untuk melaksanakan pertanyaan SQL dan membaca hasilnya ke dalam DataFrame.
Tulis data
df.to_csv('output.csv')
Anda boleh menggunakan kaedah to_csv() untuk menulis data dalam DataFrame ke fail CSV.

4 Pembersihan dan Transformasi Data
Pustaka Pandas menyediakan pelbagai fungsi dan kaedah untuk pembersihan dan transformasi data, termasuk pemprosesan nilai yang hilang, penapisan data, pengisihan data, dsb.

Pemprosesan nilai yang tiada
df.dropna(): Padamkan baris atau lajur yang mengandungi nilai yang tiada
df.fillna(nilai): Isikan nilai yang tiada dengan nilai yang ditentukan
df.interpolate(): Berasaskan interpolasi linear pada nilai yang diketahui Mengisi nilai yang tiada
Penapisan data
df[df['umur'] > 25]: Tapis baris dengan umur lebih daripada 25
df[(df['umur'] > 25) & (df[' score'] > ; 90)]: Tapis baris dengan umur lebih daripada 25 dan markah lebih daripada 90
Isih data
df.sort_values(by='score', ascending=False): Isih mengikut skor dalam tertib menurun
df. sort_index(): Isih mengikut indeks
5. Analisis Data dan Statistik
Pustaka Pandas menyediakan pelbagai fungsi dan kaedah statistik yang boleh digunakan untuk analisis dan pengiraan data.
Statistik deskriptif
df.describe(): Kira statistik deskriptif setiap lajur, termasuk min, sisihan piawai, nilai minimum, nilai maksimum, dll.
Penggabungan data
df.groupby('name').sum() :Kumpulkan mengikut nama dan kira jumlah setiap kumpulan
Pengiraan kumulatif
df.cumsum(): Kira jumlah kumulatif setiap lajur
Analisis korelasi
df.corr(): Kira pekali korelasi antara lajur
df (): Kira kovarians antara lajur

Di atas hanyalah sebahagian daripada fungsi dan penggunaan pustaka Pandas Untuk penggunaan yang lebih terperinci, sila rujuk dokumentasi rasmi Pandas. Dengan menggunakan fungsi yang disediakan oleh perpustakaan Pandas secara fleksibel, pemprosesan dan analisis data boleh dilakukan dengan cekap, dan sokongan padu boleh disediakan untuk pembelajaran mesin dan kerja perlombongan data yang seterusnya.

Atas ialah kandungan terperinci Penjelasan terperinci tentang cara mengimport dan menggunakan perpustakaan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python sql numpy pandas print 数据类型 select 字符串数据结构 database 数据库数据分析 excel

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasianArtikel seterusnya：Cara menggunakan Panda untuk mengendalikan nilai pendua dalam data: analisis komprehensif kaedah penyahduplikasian

Artikel berkaitan

Lihat lagi