使用Z 分數檢測和排除Pandas DataFrame 中的異常值
從Pandas DataFrame 中識別和刪除異常值對於確保準確性準確性至關重要數據分析的可靠性。為了實現這一目標,常見的方法是利用 Z 分數,它測量數據點與平均值的標準差數。
實作這種方法需要使用 scipy.stats.zscore 函數,它計算給定資料數組的 Z 分數。透過將 Z 分數應用於 DataFrame 中的每一列,可以確定哪些行包含與平均值顯著不同的值。
例如,排除特定列所在的所有行,例如「 Vol," 包含異常值,可以使用以下表達式:
此表達式計算「Vol」列中每個值的絕對Z 分數。使用絕對值來忽略偏離平均值的方向。結果是一個布林掩碼,其中 True 表示沒有異常值的行。使用此遮罩對 DataFrame 進行索引可有效排除具有極端「Vol」值的行。
如果需要考慮多列,可以修改語法以檢查任何欄位中具有異常值的行:
在這種情況下, (np.abs(stats.zscore( df))
透過利用 Z 分數和提供的表達式,可以直接過濾掉異常資料點,確保資料集乾淨可靠以便進一步分析。
以上是Z 分數如何協助辨識和刪除 Pandas DataFrame 中的例外值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!