Pandas DataFrames 中的異常值排除:偵測和刪除資料異常
在資料分析中,異常值可能會扭曲結果並扭曲結果並扭曲結果解釋。為了緩解這個問題,檢測並排除資料集中的異常值至關重要。本文示範了一種使用 scipy.stats.zscore 函數在 pandas DataFrame 中排除異常值的優雅方法。
假設您有一個包含多個列的 DataFrame,其中一列(名為「Vol」)包含具有明確值的值離群值(例如 4000,而大多數值約為 1200)。若要刪除特定欄位中包含此類離群值的行,請依照下列步驟操作:
使用 scipy.stats.zscore進行離群值偵測
導入必要的函式庫:
import pandas as pd import numpy as np from scipy import stats
計算異常值敏感列的 Z分數:
df["Vol_zscore"] = stats.zscore(df["Vol"])
建立條件來辨識行在三個標準差內意思是:
mask = np.abs(df["Vol_zscore"]) < 3
使用條件過濾 DataFrame>
filtered_df = df[mask]
以上是如何有效地從 Pandas DataFrame 欄位中刪除異常值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!