Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bermula dengan cepat dengan Python Pandas, dan pelajari cara memproses data seperti tukang masak!

Bermula dengan cepat dengan Python Pandas, dan pelajari cara memproses data seperti tukang masak!

WBOY
WBOYke hadapan
2024-03-20 16:01:42519semak imbas

Python Pandas 入门速成,庖丁解牛式数据处理!

pandas ialah perpustakaan pemprosesan data python yang berkuasa yang bersinar dalam analisis data, pembersihan dan transformasi. struktur data yang fleksibel dan fungsi yang kaya menjadikannya alat yang berkuasa untuk pemprosesan data.

Struktur data: DataFrame

DataFrame ialah struktur data teras Panda, serupa dengan jadual, yang terdiri daripada baris dan lajur. Setiap baris mewakili rekod data, dan setiap lajur mewakili atribut rekod.

Memuat dan membaca data

  • Muat daripada fail CSV: pd.read_csv("filename.csv")
  • Muat daripada fail Excel: pd.read_pd.read_<strong class="keylink">excel</strong>("filename.xlsx")excel
  • ("nama fail.xlsx")
  • Muat daripada fail JSON: pd.read_<strong class="keylink">JSON</strong>("filename.<strong class="keylink">js</strong>on")pd.read_
  • JSON
("filename.

json")

  • Pembersihan data df.fillna(0)
  • Kendalikan nilai yang tiada: (isi nilai yang tiada dengan 0)df.drop_duplicates()
  • Alih keluar pendua:df["column"].astype(int)
Penukaran jenis:

(Tukar lajur daripada jenis objek kepada jenis integer)

  • Penukaran data pd.merge(df1, df2, on="column_name")
  • Gabung DataFrame: pd.concat([df1, df2], axis=1)
  • Sertai DataFrame: (Sertai mengikut lajur)df.groupby("column_name").agg({"column_name": "mean"})
Operasi kumpulan:

(Kumpulkan mengikut lajur dan kira purata)

  • Analisis Data df.describe()
  • Statistik deskriptif: (kira min, median, sisihan piawai, dll.) df.plot()
  • Visualisasi: (jana carta bar, carta garis, dll.) df.agg({"column_name": "sum"})
Pengagregatan data:

(kira jumlah lajur)

  • Ciri Termaju df[df["column_name"] > 10]
  • Penapisan bersyarat: df[df["column_name"].str.cont<strong class="keylink">ai</strong>ns("pattern")]
  • Ungkapan biasa: df[df["column_name"].str.contaidf["new_column"] = df["old_column"].apply(my_funct<strong class="keylink">io</strong>n)ns("corak")]

Fungsi tersuai: df["new_column"] = df["old_column"].apply(my_functio

n)

Contoh

import pandas as pd

# 从 CSV 文件加载数据
df = pd.read_csv("sales_data.csv")

# 清洗数据
df.fillna(0, inplace=True) # 填充缺失值

# 转换数据
df["sale_date"] = pd.to_datetime(df["sale_date"]) # 将日期列转换为 datetime 类型

# 分析数据
print(df.describe()) # 显示描述性统计

# 可视化数据
df.plot(x="sale_date", y="sales") # 生成折线图

# 导出数据
df.to_csv("sales_data_processed.csv", index=False) # 导出为 CSV 文件

Kesimpulan🎜🎜 🎜Panda menjadikan kerja dengan data menjadi mudah, dan ciri hebatnya serta struktur data yang fleksibel menjadikannya 🎜alat🎜 yang mesti dimiliki untuk saintis data dan penganalisis. Dengan menguasai asas Panda, anda boleh memproses dan menganalisis set data yang kompleks dengan cepat dan mudah. 🎜

Atas ialah kandungan terperinci Bermula dengan cepat dengan Python Pandas, dan pelajari cara memproses data seperti tukang masak!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:lsjlt.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam