ホームページ >バックエンド開発 >Python チュートリアル >Z スコアを使用して Pandas DataFrame の外れ値を効果的に検出して除外する方法
Pandas DataFrames での外れ値の検出と除外
データセットを操作する場合、外れ値は分析を歪める可能性があるため、外れ値を特定して処理することが重要です。結果。 pandas では、特定の列値に基づく外れ値の検出と除外は、洗練された効率的なアプローチを使用して実現できます。
問題を理解する
複数の列を持つ pandas DataFrame を想定します。 、特定の行には、「Vol」として示される特定の列に外れ値が含まれる場合があります。タスクは、DataFrame をフィルタリングし、「Vol」列の値が平均から大きく逸脱している行を除外することです。
scipy.stats.zscore を使用した解決策
目的これにより、scipy.stats.zscore を活用できますfunction:
import pandas as pd import numpy as np from scipy import stats # Calculate Z-scores for the specified column z_scores = stats.zscore(df['Vol']) # Define a threshold for outlier detection (e.g., 3 standard deviations) threshold = 3 # Create a mask to identify rows with outlier values mask = np.abs(z_scores) < threshold # Filter the DataFrame using the mask outlier_filtered_df = df[mask]
このソリューションは、指定された列の値に基づいて外れ値を検出して除外する効果的な方法を提供します。 Z スコアを使用すると、平均からの個々の値の偏差を定量化し、しきい値を適用して外れ値を特定できます。結果の outlier_filtered_df には、指定された範囲内の「Vol」値を持つ行のみが含まれます。
以上がZ スコアを使用して Pandas DataFrame の外れ値を効果的に検出して除外する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。