Rumah >pembangunan bahagian belakang >Tutorial Python >Cara menggunakan fungsi asas dalam perpustakaan panda untuk analisis data
Cara menggunakan fungsi biasa dalam perpustakaan panda untuk analisis data
Ikhtisar:
Dengan kemunculan era data besar, analisis data menjadi semakin penting. Sebagai alat yang berkuasa untuk analisis data Python, perpustakaan Pandas menyediakan pelbagai fungsi untuk memproses dan menganalisis data. Artikel ini akan memperkenalkan fungsi yang biasa digunakan dalam pustaka Pandas dan memberikan contoh kod khusus untuk membantu pembaca menggunakan Panda dengan lebih baik untuk analisis data.
Data import dan viewing
Pandas menyediakan pelbagai kaedah untuk mengimport data Kaedah yang biasa digunakan termasuk membaca pangkalan data csv, Excel dan SQL, antaranya fungsi yang paling biasa digunakan ialah read_csv(). Kod sampel adalah seperti berikut:
import pandas as pd # 从csv文件中导入数据 df = pd.read_csv('data.csv') # 查看数据的前几行 print(df.head(5)) # 查看数据的基本信息,包括列名、数据类型等 print(df.info())
Pembersihan Data
Sebelum analisis data, selalunya perlu untuk membersihkan data, termasuk memproses nilai yang hilang, nilai pendua dan outlier. Pandas menyediakan pelbagai fungsi untuk membantu pembersihan data. Kod sampel adalah seperti berikut:
# 处理缺失值,填充为指定值 df.fillna(value=0, inplace=True) # 删除重复值 df.drop_duplicates(inplace=True) # 处理异常值,删除指定范围外的数据 df = df[(df['col'] >= 0) & (df['col'] <= 100)]
Penapisan dan pengisihan data
Panda menyediakan fungsi penapisan dan pengisihan yang berkuasa, yang boleh memilih dan mengisih data berdasarkan syarat. Kod sampel adalah seperti berikut:
# 根据条件筛选数据 df_filtered = df[df['col'] > 0] # 根据某一列进行升序排序 df_sorted = df.sort_values(by='col', ascending=True)
Penggabungan data dan statistik
Penggabungan data dan statistik ialah salah satu aspek teras analisis data Pandas menyediakan pelbagai fungsi untuk pengagregatan data dan analisis statistik. Kod sampel adalah seperti berikut:
# 求取某一列的平均值 mean_val = df['col'].mean() # 求取某一列的总和 sum_val = df['col'].sum() # 统计某一列的唯一值及其出现次数 value_counts = df['col'].value_counts()
Pengvisualan Data
Pengvisualan data membantu untuk memaparkan hasil analisis data secara visual, dan Panda boleh disepadukan dengan lancar dengan perpustakaan visualisasi seperti Matplotlib. Kod sampel adalah seperti berikut:
import matplotlib.pyplot as plt # 绘制柱状图 df['col'].plot(kind='bar') # 绘制散点图 df.plot(kind='scatter', x='col1', y='col2') # 绘制折线图 df.plot(kind='line') # 显示图形 plt.show()
Ringkasan:
Pandas ialah alat analisis data yang berkuasa yang menyediakan pelbagai fungsi untuk memproses dan menganalisis data. Artikel ini memperkenalkan fungsi yang biasa digunakan dalam pustaka Pandas dan memberikan contoh kod khusus. Dengan menguasai fungsi biasa ini, pembaca boleh menggunakan Panda dengan lebih baik untuk analisis data dan dengan itu lebih baik menghadapi cabaran era data besar.
Atas ialah kandungan terperinci Cara menggunakan fungsi asas dalam perpustakaan panda untuk analisis data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!