Pandas DataFrame 中的離群值偵測與排除
使用資料集時,辨識並處理離群值至關重要,因為它們可能會影響分析和結果結果。在 pandas 中,可以使用優雅且高效的方法來實現基於特定列值的異常值檢測和排除。
理解問題
給定一個包含多個列的 pandas DataFrame ,某些行可能在特定列中包含異常值,表示為「Vol」。任務是過濾 DataFrame 並排除「Vol」列值顯著偏離平均值的行。
解決方案使用scipy.stats.zscore
來實現這個,我們可以利用scipy.stats.zscore 函數:
import pandas as pd import numpy as np from scipy import stats # Calculate Z-scores for the specified column z_scores = stats.zscore(df['Vol']) # Define a threshold for outlier detection (e.g., 3 standard deviations) threshold = 3 # Create a mask to identify rows with outlier values mask = np.abs(z_scores) < threshold # Filter the DataFrame using the mask outlier_filtered_df = df[mask]這個解決方案提供一種根據指定列值檢測和排除異常值的有效方法。透過使用 Z 分數,我們可以量化各個值與平均值的偏差,並應用閾值來識別異常值。產生的 outlier_filtered_df 將僅包含「Vol」值在指定範圍內的行。
以上是如何使用 Z 分數有效檢測和排除 Pandas DataFrame 中的異常值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!