Z スコアを使用して Pandas DataFrame から外れ値を特定して削除するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Z スコアを使用して Pandas DataFrame から外れ値を特定して削除するにはどうすればよいですか?

Patricia Arquette

Nov 30, 2024 pm 12:39 PM

How Can I Identify and Remove Outliers from a Pandas DataFrame Using Z-scores?

pandas DataFrame での外れ値の特定と除外

複数の列を持つ pandas DataFrame では、特定の列の値に基づいて外れ値を特定し、除外することができます。データの精度と信頼性を向上させます。外れ値、つまりデータの大部分から大幅に逸脱した極端な値は、分析結果を歪め、誤った結論につながる可能性があります。

外れ値を効果的にフィルタリングするには、統計手法に依存する堅牢なアプローチが必要です。 1 つの方法には、値が平均からどれだけ標準偏差があるかを表す Z スコアを使用することが含まれます。事前定義されたしきい値を超える Z スコアを持つ行は、外れ値と見なすことができます。

sciPy.stats.zscore の使用

sciPy ライブラリには、Z を計算するための zscore() 関数が用意されています。 -DataFrame 内の各列のスコア。外れ値を検出して除外するための洗練されたソリューションを次に示します。

import pandas as pd
import numpy as np
from scipy import stats

df = pd.DataFrame({'Vol': [1200, 1220, 1215, 4000, 1210]})

outlier_threshold = 3

# Compute Z-scores for the 'Vol' column
zscores = np.abs(stats.zscore(df['Vol']))

# Create a mask to identify rows with outliers
outlier_mask = zscores > outlier_threshold

# Exclude rows with outliers
df_without_outliers = df[~outlier_mask]

このアプローチでは、外れ値の行を効果的に特定し、DataFrame から削除します。

複数の列の処理

複数の列の場合、外れ値検出は特定の列またはすべての列に適用できます同時に:

# Outliers in at least one column
outlier_mask = (np.abs(stats.zscore(df)) <pre class="brush:php;toolbar:false"># Outliers in a specific column ('Vol')
zscores = np.abs(stats.zscore(df['Vol']))
outlier_mask = zscores > outlier_threshold

# Remove rows with outliers in the 'Vol' column
df_without_outliers = df[~outlier_mask]

Z スコア計算などの統計手法を採用することで、pandas DataFrame で外れ値を効率的に検出して除外し、よりクリーンで信頼性の高い分析データを確保できます。

以上がZ スコアを使用して Pandas DataFrame から外れ値を特定して削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonで工場モードを実装する方法は？May 16, 2025 pm 12:39 PM

Pythonに工場パターンを実装すると、統一されたインターフェイスを作成することにより、さまざまな種類のオブジェクトを作成できます。特定の手順は次のとおりです。1。車両、車、飛行機、列車などの基本クラスと複数の継承クラスを定義します。 2。Factory Class CheerFactoryを作成し、Create_Vehicleメソッドを使用して、型パラメーターに従って対応するオブジェクトインスタンスを返します。 3。my_car = factory.create_vehicle（ "car"、 "tesla"など、工場クラスを介してオブジェクトをインスタンス化します。このパターンは、コードのスケーラビリティと保守性を向上させますが、その複雑さに注意を払う必要があります

Python Original Stringプレフィックスではrの意味がありますMay 16, 2025 pm 12:36 PM

Pythonでは、RまたはRプレフィックスを使用して元の文字列を定義し、逃げたすべての文字を無視し、文字列を文字通り解釈します。 1）脱出キャラクターの誤解を避けるために、正規表現とファイルパスに対処するために適用されます。 2）ラインブレークなど、逃げたキャラクターを保存する必要がある場合には適用されません。予期しない出力を防ぐために使用する場合は、慎重なチェックが必要です。

Pythonの__del__メソッドを使用してリソースをクリーンアップする方法は？May 16, 2025 pm 12:33 PM

Pythonでは、__del__メソッドはオブジェクトの破壊者であり、リソースのクリーンアップに使用されます。 1）不確実な実行時間：ごみ収集メカニズムに依存します。 2）循環参照：それにより、コールを迅速にできなくなり、weakRefモジュールを使用して処理することがあります。 3）例外処理：__del__でスローされた例外は、Try-Exectブロックを使用して無視され、キャプチャされる場合があります。 4）リソース管理のためのベストプラクティス：リソースを管理するためにステートメントとコンテキストマネージャーで使用することをお勧めします。

PythonリストのPOP（）関数の使用POP要素削除方法詳細な説明May 16, 2025 pm 12:30 PM

POP（）関数は、Pythonで使用され、リストから要素を削除し、指定された位置を返します。 1）インデックスが指定されていない場合、POP（）はデフォルトでリストの最後の要素を削除および返します。 2）インデックスを指定するとき、POP（）はインデックス位置で要素を削除および返します。 3）インデックスエラー、パフォーマンスの問題、代替方法、および使用時のリストの変動に注意してください。

画像処理にPythonを使用する方法は？May 16, 2025 pm 12:27 PM

Pythonは、主に2つの主要なライブラリピローとOpenCVを使用して画像処理に使用しています。枕は、透かしの追加などの単純な画像処理に適しており、コードはシンプルで使いやすいです。 OpenCVは、優れたパフォーマンスを備えたエッジ検出などの複雑な画像処理とコンピュータービジョンに適していますが、メモリ管理に注意が必要です。

Pythonで主成分分析を実装する方法は？May 16, 2025 pm 12:24 PM

PythonでPCAの実装は、手動でコードを書くか、Scikit-Learnライブラリを使用して実行できます。 PCAの手動での実装には、次の手順が含まれます。1）データの集中、2）共分散行列の計算、3）固有値と固有ベクトルを計算し、4）主成分をソートして選択し、5）データを新しいスペースに投影します。手動の実装は、アルゴリズムを深く理解するのに役立ちますが、Scikit-Learnはより便利な機能を提供します。

Pythonで対数を計算する方法は？May 16, 2025 pm 12:21 PM

Pythonでの対数計算は非常にシンプルですが興味深いことです。最も基本的な質問から始めましょう：Pythonで対数を計算する方法は？ Pythonで対数を計算する基本的な方法PythonのMath Moduleは、計算するための関数を提供します。簡単な例を見てみましょう：Importmath＃自然対数（base is e）x = 10natural_log = math.log（x）print（f "natural log（{x}）= {natural_log}"）＃を計算します。

Pythonで線形回帰を実装する方法は？May 16, 2025 pm 12:18 PM

Pythonで線形回帰を実装するには、複数の視点から開始できます。これは単なる機能呼び出しであるだけでなく、統計、数学的最適化、機械学習の包括的なアプリケーションを伴います。このプロセスに深く飛び込みましょう。 Pythonで線形回帰を実装する最も一般的な方法は、簡単で効率的なツールを提供するScikit-Learnライブラリを使用することです。ただし、線形回帰の原則と実装の詳細をより深く理解したい場合は、独自の線形回帰アルゴリズムをゼロから書くこともできます。 Scikit-Learnの線形回帰実装により、Scikit-Learnを使用して線形回帰の実装をカプセル化し、簡単にモデル化および予測できるようになります。これがSCの使用です

See all articles