ホームページ >バックエンド開発 >Python チュートリアル >Z スコアを使用して Pandas DataFrame の外れ値を効果的に検出して除外する方法

Z スコアを使用して Pandas DataFrame の外れ値を効果的に検出して除外する方法

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-12-01 04:54:14245ブラウズ

How to Effectively Detect and Exclude Outliers in Pandas DataFrames Using Z-scores?

Pandas DataFrames での外れ値の検出と除外

データセットを操作する場合、外れ値は分析を歪める可能性があるため、外れ値を特定して処理することが重要です。結果。 pandas では、特定の列値に基づく外れ値の検出と除外は、洗練された効率的なアプローチを使用して実現できます。

問題を理解する

複数の列を持つ pandas DataFrame を想定します。 、特定の行には、「Vol」として示される特定の列に外れ値が含まれる場合があります。タスクは、DataFrame をフィルタリングし、「Vol」列の値が平均から大きく逸脱している行を除外することです。

scipy.stats.zscore を使用した解決策

目的これにより、scipy.stats.zscore を活用できますfunction:

import pandas as pd
import numpy as np
from scipy import stats

# Calculate Z-scores for the specified column
z_scores = stats.zscore(df['Vol'])

# Define a threshold for outlier detection (e.g., 3 standard deviations)
threshold = 3

# Create a mask to identify rows with outlier values
mask = np.abs(z_scores) < threshold

# Filter the DataFrame using the mask
outlier_filtered_df = df[mask]

このソリューションは、指定された列の値に基づいて外れ値を検出して除外する効果的な方法を提供します。 Z スコアを使用すると、平均からの個々の値の偏差を定量化し、しきい値を適用して外れ値を特定できます。結果の outlier_filtered_df には、指定された範囲内の「Vol」値を持つ行のみが含まれます。

以上がZ スコアを使用して Pandas DataFrame の外れ値を効果的に検出して除外する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。