統計は、データを分析して理解するための強力なツールを提供します。統計学の基本概念の 1 つは 68-95-99.7 ルールであり、経験則またはスリー シグマ ルールとも呼ばれます。このルールにより、標準偏差に基づいてデータの分布に関する重要な推論を行うことができます。このブログ投稿では、68-95-99.7 ルールを検討し、Python を使用してそれを適用する方法を示します。
68-95-99.7 ルールは、平均から特定の標準偏差以内にある正規分布内のデータの割合を推定する方法を提供します。このルールによると -
データの約 68% は、平均値の 1 標準偏差以内に収まります。
データの約 95% は、平均値から標準偏差 2 つ以内に収まります。
データの約 99.7% は、平均値の 3 標準偏差以内に収まります。
これらのパーセンテージは、正規分布 (釣鐘曲線とも呼ばれる) に従うデータ セットに対するものです。このルールを理解すると、データの広がりを迅速に評価し、外れ値や異常な観測値を特定できるようになります。
68-95-99.7 ルールの動作を示すために、Python とその人気のあるデータ分析ライブラリ NumPy を使用します。 NumPy は、必要な値を計算するのに役立つ効率的な数値演算と統計関数を提供します。まず必要なライブラリをインポートしましょう−
リーリー次に、numpy.random.normal() 関数を使用して、正規分布に従うランダム データ セットを生成します。平均 0 と標準偏差 1 −
を使用します。 リーリーこれで、データセットの平均と標準偏差を計算できます−
リーリーデータと 68-95-99.7 ルールが適用される領域を視覚化するには、matplotlib.pyplot.hist() 関数を使用してヒストグラムを作成できます。−
リーリー結果のヒストグラムには、破線でマークされた平均と標準偏差を持つデータの分布が表示されます。
各範囲のカバー率を計算するには、正規分布の累積分布関数 (CDF) を使用できます。 NumPy 関数 numpy.random.normal() は正規分布データを生成しますが、NumPy は CDF −
を計算するための numpy.random.normal() も提供します。 リーリーこのコードを実行すると、平均値の 1、2、および 3 標準偏差以内に収まるデータの割合が表示されます。
リーリーこれらの結果は、68-95-99.7 ルールで予想されるパーセンテージと非常に一致しています。
各範囲がカバーする割合には特定の解釈があります。平均値から 1 標準偏差以内に収まるデータは比較的一般的ですが、平均値から 3 標準偏差以内に収まるデータはまれであると考えられます。これらの説明を理解することは、データについて有意義な推論を行うのに役立ちます。
68-95-99.7 ルールは貴重なガイドラインですが、正規分布から大きく逸脱するデータセットには正確に適用できない可能性があります。このようなデータセットを扱う場合は、他の統計手法を考慮し、さらなる分析を行うことが重要です。
外れ値は、各範囲がカバーする割合の精度に大きな影響を与える可能性があります。これらの極端な値は分布を歪め、ルールの有効性に影響を与える可能性があります。正確な統計分析を保証するには、外れ値を適切に特定して処理することが重要です。
68-95-99.7 ルールはすべての領域に適用されます。たとえば、品質管理プロセスでの欠陥製品の特定、財務分析でのリスクと投資収益率の評価、医療研究での患者の特性の理解、その他多くの分野でのデータ分布の理解において、それは非常に重要です。
統計をさらに詳しく調べるときは、68-95-99.7 ルールを補足する他の概念を検討することを検討してください。歪度、尖度、信頼区間、仮説検定、回帰分析は、データの理解と分析をさらに強化できる統計ツールのほんの一例にすぎません。
###結論は###以上がPython を使用した統計における 68-95-99.7 ルールのデモンストレーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。