Rumah >pembangunan bahagian belakang >Tutorial Python >Cara menggunakan Panda untuk analisis data dalam Python
Pertama, pastikan anda memasang pustaka Pandas. Jika tidak, sila gunakan arahan berikut untuk memasangnya:
pip install pandas
import pandas as pd
Menggunakan Panda, anda boleh membaca dengan mudah pelbagai Format data, termasuk CSV, Excel, JSON dan HTML, dsb. Berikut ialah contoh membaca fail CSV:
data = pd.read_csv('data.csv')
Kaedah membaca format data lain adalah serupa, seperti membaca fail Excel:
data = pd.read_excel('data.xlsx')
boleh digunakan fungsi head()
untuk melihat beberapa baris pertama data (lalai ialah 5 baris):
print(data.head())
Anda juga boleh menggunakan fungsi tail()
untuk melihat beberapa baris terakhir data, dan fungsi info()
dan describe()
untuk melihat data Maklumat statistik:
Terdapat banyak cara untuk memilih data Berikut adalah beberapa kaedah biasa:
Pilih lajur: data['column_name']
Pilih berbilang lajur: data[['column1', 'column2']]
Pilih baris : data.loc[row_index]
Pilih nilai: data.loc[row_index, 'column_name']
Pilih mengikut syarat: data[data['column_name'] > value]
Sebelum analisis data, data biasanya perlu dibersihkan. Berikut ialah beberapa kaedah pembersihan data yang biasa digunakan:
Alih keluar nilai nol: data.dropna()
Ganti nilai nol: data.fillna(value)
Namakan semula nama lajur: data.rename(columns={'old_name': 'new_name'})
Penukaran jenis data: data['column_name'].astype(new_type)
Alih keluar pendua Nilai: data.drop_duplicates()
Panda menyediakan fungsi analisis data yang kaya Berikut adalah beberapa kaedah biasa:
Kira min: data['column_name'].mean()
Hitung median: data['column_name'].median()
Kira mod: data['column_name'].mode()
Kira sisihan piawai: data['column_name'].std()
Kira korelasi: data.corr()
Pengumpulan data: data.groupby('column_name')
Panda boleh mengubah data menjadi carta visual dengan mudah. Mula-mula, anda perlu memasang pustaka Matplotlib:
print(data.tail()) print(data.info()) print(data.describe())
Kemudian, gunakan kod berikut untuk mencipta carta:
pip install matplotlib
Jenis carta visualisasi lain termasuk carta garis, carta pai, histogram, dsb. :
import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
Panda boleh mengeksport data ke pelbagai format, seperti CSV, Excel, JSON, HTML, dll. Berikut ialah contoh mengeksport data ke fail CSV:
data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
Kaedah eksport untuk format data lain adalah serupa, seperti mengeksport ke fail Excel:
data.to_csv('output.csv', index=False)
data.to_excel('output.xlsx', index=False)Kemudian, kita boleh membersihkan dan menganalisis data. Sebagai contoh, kita boleh mengira jualan setiap produk:
import pandas as pd data = pd.read_csv('sales_data.csv')Seterusnya, kita boleh menganalisis produk mana yang mempunyai jualan tertinggi:
data['sales_amount'] = data['quantity'] * data['price']Akhir sekali, kita boleh mengeksport hasil sebagai fail CSV:
rreeee
Atas ialah kandungan terperinci Cara menggunakan Panda untuk analisis data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!