Rumah > Artikel > pembangunan bahagian belakang > PENEROKAAN DATA BERSAMA PANDAS: PANDUAN PERMULA
Penerokaan Data dengan Panda: Panduan Pemula
Pengenalan
Dalam dunia sains data, Pandas ialah salah satu alat yang paling berkuasa untuk manipulasi dan analisis data dalam Python.
Dibina di atas perpustakaan NumPy, Pandas menyediakan struktur dan fungsi data
yang menjadikan analisis data pantas dan mudah, daripada memuatkan set data kepada mengubah dan meringkaskannya.
Jika anda baru dalam sains data atau Python, panduan ini akan memperkenalkan anda kepada asas penerokaan data dengan Panda, meliputi teknik penting yang asas kepada mana-mana projek data.
Dalam panduan ini, kita akan melihat:
•Cara memuatkan data ke dalam Panda
•Kaedah asas untuk memeriksa dan meneroka data
•Teknik untuk menapis, mengisih dan meringkaskan data
•Mengendalikan nilai yang hilang
Mari beralih kepada penerokaan data dengan Panda!
Memuatkan Data
Langkah pertama dalam mana-mana projek analisis data ialah memuatkan data anda ke dalam Pandas DataFrame, iaitu
struktur data utama dalam Pandas.
DataFrames ialah struktur dua dimensi yang menyimpan data dalam baris dan lajur, sama seperti hamparan.
Untuk memasang panda pada python, gunakan arahan ini:
py -m pip pasang panda
(Pastikan pc disambungkan ke wifi untuk memuat turun panda)
Memuatkan Fail CSV dan Excel
Untuk memuatkan set data, kita boleh menggunakan fungsi pd.read_csv() untuk fail CSV atau pd.read_excel()untuk
Fail Excel.
import panda sebagai pd
Untuk memuatkan fail CSV
df = pd.readcsv('path/to/your/file.csv')
Untuk memuatkan fail excel
df = pd.readexcel('path/to/your/file.xlsx')
Selepas memuatkan data, DataFrame df akan mengandungi set data, sedia untuk penerokaan dan manipulasi.
Meneroka Data
Setelah data dimuatkan, langkah seterusnya ialah meneroka dan merasakan struktur, kandungan dan isu yang berpotensi.
Berikut ialah beberapa kaedah asas untuk memeriksa data anda:
Memeriksa Beberapa Baris Pertama
Untuk melihat bahagian atas set data, gunakan kaedah head(). Secara lalai, ia menunjukkan lima baris pertama, tetapi anda
boleh menentukan nombor yang berbeza.
Untuk memaparkan 5 baris pertama
print(df.head())
Begitu juga, anda boleh menggunakan tail()untuk memaparkan beberapa baris terakhir.
Menyemak Struktur dan Jenis Data
Untuk melihat ringkasan set data anda, termasuk nama lajur, jenis data dan nilai bukan nol, gunakan
info()kaedah.
Untuk mendapatkan ringkasan DataFrame
print(df.info())
Ini memberikan gambaran keseluruhan pantas set data dan boleh membantu anda mengenal pasti mana-mana lajur yang tiada data atau jenis data yang tidak dijangka.
Statistik Ringkasan
Untuk data berangka, huraikan()menyediakan statistik ringkasan seperti nilai min, median, min dan maks.
Untuk mendapatkan statistik ringkasan
print(df.describe())
Manipulasi Data Asas
Penerokaan data selalunya memerlukan penapisan, pengisihan dan meringkaskan data untuk mendapatkan cerapan.
Panda memudahkan perkara ini dengan beberapa kaedah terbina dalam.
Menapis Data
Anda boleh menapis baris berdasarkan keadaan menggunakan fungsi loc[] atau dengan menggunakan syarat terus pada DataFrame.
Untuk menapis baris yang lajur memenuhi syarat
filtereddf = df[df['columnname'] > beberapa nilai]
df_filtered = df.loc[df['column_name'] > some_value]
Isih Data
Untuk mengisih data mengikut lajur tertentu, gunakan kaedah sort_values(). Anda boleh mengisih mengikut tertib menaik atau menurun.
Untuk mengisih mengikut lajur dalam tertib menaik
sorted_df = df.sort_values(by='column_name')
Untuk mengisih mengikut lajur dalam tertib menurun
sorted_df = df.sort_values(by='column_name', ascending=False)
Meringkaskan Data
Fungsi groupby() berguna untuk meringkaskan data. Sebagai contoh, anda boleh mengira min bagi sebuah
lajur untuk setiap kategori dalam lajur lain.
UNTUK mengumpulkan mengikut lajur dan mengira min bagi lajur lain
groupeddf = df.groupby('categorycolumn')['numericcolumn'].min()
Mengendalikan Data Yang Hilang
Data yang hilang ialah isu biasa dalam set data dunia sebenar dan Pandas menyediakan beberapa cara untuk mengendalikannya.
Menggugurkan Nilai Yang Hilang
Jika baris atau lajur mempunyai nilai yang tiada dan anda ingin mengalih keluarnya, gunakan dropna().
Gugurkan baris dengan nilai yang tiada
dfdrop = df.dropna()
Gugurkan lajur dengan nilai yang tiada
dfdrop = df.dropna(axis=1)
Mengisi Nilai Yang Hilang
Untuk menggantikan nilai yang tiada dengan nilai tertentu (cth., min lajur), gunakan fillna().
Isi nilai yang tiada dengan min lajur
df['nama ruangan'].fillna(df['nama ruangan'].min(), inplace=Benar)
Mengendalikan data yang hilang dengan sewajarnya adalah penting untuk mengelakkan ralat dan memastikan kualiti analisis anda.
Kesimpulan
Menguasai Panda adalah penting untuk sebarang projek sains data, kerana ia membolehkan anda meneroka, membersihkan dan
mengubah data dengan berkesan. Dalam panduan ini, kami telah membincangkan cara memuatkan data, memeriksanya, melaksanakan data asas
manipulasi, dan mengendalikan nilai yang hilang, semua langkah asas untuk penerokaan data. Semasa anda maju,
Panda menawarkan ciri yang lebih berkuasa untuk analisis dan manipulasi data yang kompleks.
Untuk pembelajaran lanjut, anda boleh menyemak dokumentasi rasmi Pandas atau meneroka lebih banyak tutorial tentang
Tapak dokumentasi rasmi Python.
Dengan asas ini, anda sudah bersedia untuk memulakan perjalanan anda dalam penerokaan data dengan Pandas. Dapatkan set data
daripada sumber seperti Kaggleor the UCI Machine Learning Repository dan praktikkan teknik ini.
Ditulis oleh:Aniekpeno Thompson
Peminat Sains Data yang bersemangat Mari kita meneroka masa depan sains data bersama
https//wwwlinkedincom/in/anekpenothompson80370a262
Atas ialah kandungan terperinci PENEROKAAN DATA BERSAMA PANDAS: PANDUAN PERMULA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!