首頁 >後端開發 >Python教學 >Python Pandas 入門速成,庖丁解牛式資料處理!

Python Pandas 入門速成,庖丁解牛式資料處理!

WBOY
WBOY轉載
2024-03-20 16:01:42566瀏覽

Python Pandas 入门速成,庖丁解牛式数据处理!

pandas 是一個強大的python 資料處理庫,在資料分析、清洗和轉換方面大放異彩異彩。其靈活的資料結構和豐富的功能使其成為資料處理的利器。

資料結構:DataFrame

#DataFrame 是 Pandas 的核心資料結構,類似於一個表格,由行和列組成。每一行表示一個資料記錄,每一列表示該記錄的一個屬性。

資料載入與讀取

  • #從 CSV 檔案載入:pd.read_csv("filename.csv")
  • #從 Excel 檔案載入:pd.read_<strong class="keylink">excel</strong>("filename.xlsx")
  • 從 JSON 檔案載入:pd.read_<strong class="keylink">JSON</strong>("filename.<strong class="keylink">js</strong>on")

資料清洗

  • #處理缺失值:df.fillna(0)(以 0 填入缺失值)
  • 移除重複:df.drop_duplicates()
  • #型別轉換:df["column"].astype(int)(將一列從物件型別轉換為整數型別)

資料轉換

  • 合併 DataFrame:pd.merge(df1, df2, on="column_name")
  • 連接 DataFrame:pd.concat([df1, df2], axis=1)(按列連接)
  • 分組運算:df.groupby("column_name").agg({"column_name": "mean"})(按列分組並計算平均值)

資料分析

  • 描述性統計:df.describe()(計算平均數、中位數、標準差等)
  • 視覺化:df.plot()(產生長條圖、折線圖等)
  • 資料聚合:df.agg({"column_name": "sum"})(計算一列的總和)

高階功能

  • 條件篩選:df[df["column_name"] > 10]
  • #正規表示式:df[df["column_name"].str.cont<strong class="keylink">ai</strong>ns("pattern")]
  • 自訂函數:df["new_column"] = df["old_column"].apply(my_funct<strong class="keylink">io</strong>n)

範例

import pandas as pd

# 從 CSV 檔案載入數據
df = pd.read_csv("sales_data.csv")

# 清洗數據
df.fillna(0, inplace=True) # 填充缺失值

# 轉換數據
df["sale_date"] = pd.to_datetime(df["sale_date"]) # 將日期列轉換為 datetime 類型

# 分析數據
print(df.describe()) # 顯示描述性統計

# 視覺化數據
df.plot(x="sale_date", y="sales") # 產生折線圖

# 匯出數據
df.to_csv("sales_data_processed.csv", index=False) # 匯出為 CSV 檔案

結語

Pandas 讓資料處理變得輕而易舉,其強大的功能和靈活的資料結構使其成為資料科學家和分析師的必備工具。透過掌握 Pandas 的基礎知識,您可以快速輕鬆地處理和分析複雜資料集。

以上是Python Pandas 入門速成,庖丁解牛式資料處理!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:lsjlt.com。如有侵權,請聯絡admin@php.cn刪除