Python は、現在最も人気のあるプログラミング言語の 1 つであり、データ サイエンスや統計分析の分野で広く使用されている言語です。統計分析では、分散分析は変数に対するさまざまな要因の影響を研究するために使用できる非常に一般的な手法です。この記事ではPythonを使って分散分析を行う方法を紹介します。
分散分析とは
分散分析 (ANOVA) は、1 つ以上のカテゴリ変数に関する連続変数間の差異を分析するために使用される統計分析手法です。これを使用して、さまざまな要因が大きく異なるかどうか、およびそれらが全体の変動にどの程度寄与しているかを判断できます。実際の応用では、ANOVA を使用して、異なる治療グループ間で平均が有意に異なるかどうかを比較したり、異なる時点または異なる条件下での同じグループの平均が有意に異なるかどうかを比較したりできます。
一元配置分散分析
一元配置分散分析は、最も単純なタイプの分散分析であり、カテゴリ変数 (独立変数または処理とも呼ばれます) の影響を研究します。連続変数 (因子とも呼ばれます) について。変数)。 Python では、scipy.stats
モジュールの f_oneway()
関数を使用して、一元配置分散分析を実行できます。サンプル コードは次のとおりです。
from scipy.stats import f_oneway group1 = [60, 62, 67, 55, 58, 63] group2 = [70, 72, 67, 80, 74, 71] group3 = [80, 82, 85, 89, 87, 88] f_value, p_value = f_oneway(group1, group2, group3) print("F value:", f_value) print("P value:", p_value)
この例では、それぞれ 6 つのデータ ポイントを持つ 3 つの治療グループがあります。 f_oneway()
関数を使用して F 値と p 値 (有意水準) を計算し、出力を出力します。この例では、F 値は 12.93、p 値は 0.0004 です。これは、有意水準 0.05 で治療群間に有意差があることを意味します。
多因子分散分析
連続変数に対する複数のカテゴリ変数の影響を研究したい場合は、多因子分散分析を使用する必要があります。 Python の statsmodels
ライブラリを使用して、多要素分散分析を実行できます。
まず、必要なパッケージをインポートする必要があります:
import pandas as pd import statsmodels.api as sm from statsmodels.formula.api import ols
次に、データを準備する必要があります。ここでは、それぞれ 2 つのレベルを持つ 3 つのカテゴリ変数「A」、「B」、「C」と、対応する従属変数「Y」を含むサンプル データ セットを使用します。
data = {'A': ['A1', 'A1', 'A2', 'A2', 'A3', 'A3', 'A4', 'A4'], 'B': ['B1', 'B2', 'B1', 'B2', 'B1', 'B2', 'B1', 'B2'], 'C': ['C1', 'C1', 'C1', 'C1', 'C2', 'C2', 'C2', 'C2'], 'Y': [60, 70, 65, 80, 75, 85, 80, 90]} df = pd.DataFrame(data) print(df)
出力結果:
A B C Y 0 A1 B1 C1 60 1 A1 B2 C1 70 2 A2 B1 C1 65 3 A2 B2 C1 80 4 A3 B1 C2 75 5 A3 B2 C2 85 6 A4 B1 C2 80 7 A4 B2 C2 90
次に、ols()
関数を使用して線形モデルを近似し、anova_lm()
関数を使用して次のことを行います。分散分析を実行します。
model = ols('Y ~ A + B + C + A:B + A:C + B:C + A:B:C', data=df).fit() anova_table = sm.stats.anova_lm(model, typ=2) print(anova_table)
出力結果:
sum_sq df F PR(>F) A 260.62500 3.0 3.923701 0.050314 B 400.00000 1.0 9.523810 0.030438 C 360.00000 1.0 8.571429 0.034907 A:B 156.25000 3.0 2.344074 0.202090 A:C 27.56250 3.0 0.414093 0.746270 B:C 13.56250 1.0 0.323810 0.601434 A:B:C 38.06250 3.0 0.571855 0.638217 Residual 1410.00000 8.0 NaN NaN
上記の表で、sum_sq はグループ間の二乗和、df はグループ間の自由度、F は F 値、PR (> F)はP値です。
この例では、変数 A、B、および C が大幅に異なっている (P 値が 0.05 未満) のに対し、A:B、A:C、B:C、および A:B が異なることがわかります。 :Cは有意差がない(P値が0.05より大きい)。
概要
分散分析は、変数に対するさまざまな要因の影響を調査するために使用できる、一般的に使用される統計分析手法です。 Python には、分散分析を簡単に実行できる豊富なライブラリと関数が用意されています。単因子分散分析でも多因子分散分析でも、Python を使用して計算を実行し、視覚的な結果と重要な統計指標を得ることができます。
以上がPython での分散分析のヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。