ホームページ  >  記事  >  バックエンド開発  >  Python を使用した統計における 68-95-99.7 ルールのデモンストレーション

Python を使用した統計における 68-95-99.7 ルールのデモンストレーション

WBOY
WBOY転載
2023-09-05 13:33:10730ブラウズ

Python を使用した統計における 68-95-99.7 ルールのデモンストレーション

統計は、データを分析して理解するための強力なツールを提供します。統計学の基本概念の 1 つは 68-95-99.7 ルールであり、経験則またはスリー シグマ ルールとも呼ばれます。このルールにより、標準偏差に基づいてデータの分布に関する重要な推論を行うことができます。このブログ投稿では、68-95-99.7 ルールを検討し、Python を使用してそれを適用する方法を示します。

68-95-99.7 ルールの概要

68-95-99.7 ルールは、平均から特定の標準偏差以内にある正規分布内のデータの割合を推定する方法を提供します。このルールによると -

  • データの約 68% は、平均値の 1 標準偏差以内に収まります。

  • データの約 95% は、平均値から標準偏差 2 つ以内に収まります。

  • データの約 99.7% は、平均値の 3 標準偏差以内に収まります。

これらのパーセンテージは、正規分布 (釣鐘曲線とも呼ばれる) に従うデータ セットに対するものです。このルールを理解すると、データの広がりを迅速に評価し、外れ値や異常な観測値を特定できるようになります。

Python での 68-95-99.7 ルールの実装

68-95-99.7 ルールの動作を示すために、Python とその人気のあるデータ分析ライブラリ NumPy を使用します。 NumPy は、必要な値を計算するのに役立つ効率的な数値演算と統計関数を提供します。まず必要なライブラリをインポートしましょう

リーリー

次に、numpy.random.normal() 関数を使用して、正規分布に従うランダム データ セットを生成します。平均 0 と標準偏差 1

を使用します。 リーリー

これで、データセットの平均と標準偏差を計算できます

リーリー

データと 68-95-99.7 ルールが適用される領域を視覚化するには、matplotlib.pyplot.hist() 関数を使用してヒストグラムを作成できます。

リーリー

結果のヒストグラムには、破線でマークされた平均と標準偏差を持つデータの分布が表示されます。

各範囲のカバー率を計算するには、正規分布の累積分布関数 (CDF) を使用できます。 NumPy 関数 numpy.random.normal() は正規分布データを生成しますが、NumPy は CDF

を計算するための numpy.random.normal() も提供します。 リーリー

このコードを実行すると、平均値の 1、2、および 3 標準偏差以内に収まるデータの割合が表示されます。

リーリー

これらの結果は、68-95-99.7 ルールで予想されるパーセンテージと非常に一致しています。

68-95-99.7 ルールの説明

各範囲がカバーする割合には特定の解釈があります。平均値から 1 標準偏差以内に収まるデータは比較的一般的ですが、平均値から 3 標準偏差以内に収まるデータはまれであると考えられます。これらの説明を理解することは、データについて有意義な推論を行うのに役立ちます。

68-95-99.7 ルールの制限

68-95-99.7 ルールは貴重なガイドラインですが、正規分布から大きく逸脱するデータセットには正確に適用できない可能性があります。このようなデータセットを扱う場合は、他の統計手法を考慮し、さらなる分析を行うことが重要です。

異常値と 68-95-99.7 ルール

外れ値は、各範囲がカバーする割合の精度に大きな影響を与える可能性があります。これらの極端な値は分布を歪め、ルールの有効性に影響を与える可能性があります。正確な統計分析を保証するには、外れ値を適切に特定して処理することが重要です。

実際の例

68-95-99.7 ルールはすべての領域に適用されます。たとえば、品質管理プロセスでの欠陥製品の特定、財務分析でのリスクと投資収益率の評価、医療研究での患者の特性の理解、その他多くの分野でのデータ分布の理解において、それは非常に重要です。

統計をさらに詳しく調べるときは、68-95-99.7 ルールを補足する他の概念を検討することを検討してください。歪度、尖度、信頼区間、仮説検定、回帰分析は、データの理解と分析をさらに強化できる統計ツールのほんの一例にすぎません。

###結論は###

68-95-99.7 ルールは統計における強力な概念であり、標準偏差に基づいてデータの分布を理解できるようになります。このルールを適用すると、平均値を中心とした特定の範囲内に収まるデータの割合を推定できます。このブログでは、Python と NumPy ライブラリを使用してランダムなデータセットを生成し、それを視覚化し、各範囲のカバー率を計算します。このルールを理解すると、データについて有意義な推論を行い、潜在的な外れ値や異常な観測結果を特定できるようになります。

以上がPython を使用した統計における 68-95-99.7 ルールのデモンストレーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はtutorialspoint.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。