Maison > Article > développement back-end > Comment calculer la valeur P de deux ensembles de données basés sur Python
Nous devons utiliser p_value lors de l'évaluation des tests A/B. Cet article explique comment utiliser Python pour calculer la signification de deux ensembles de données.
1. Code
# TTest.py # -*- coding: utf-8 -*- ''' # Created on 2020-05-20 20:36 # TTest.py # @author: huiwenhua ''' ## Import the packages import numpy as np from scipy import stats def get_p_value(arrA, arrB): a = np.array(arrA) b = np.array(arrB) t, p = stats.ttest_ind(a,b) return p if __name__ == "__main__": get_p_value([1, 2, 3, 5, ], [6, 7, 8, 9, 10])
2. 🎜>
Le test t à deux échantillons consiste à comparer s'il existe une différence significative entre les moyennes des deux populations représentées par les deux échantillons. En plus d'exiger que les échantillons proviennent d'une distribution normale, cela exige également que les variances de population des deux échantillons soient égales, c'est-à-dire « l'homogénéité des variances ».
Tester l'hypothèse nulle : il n'y a pas de différence dans les moyennes de l'échantillon (μ=μ0)
Commande Python stats.ttest_ind(data1,data2)
Lorsqu'il est incertain si les variances des deux populations sont égales, vous devez d'abord utiliser le test de Levene pour tester si les deux populations ont une homogénéité de variances stats.levene(data1,data2). Si la valeur p du résultat renvoyé est bien supérieure à 0,05, alors nous pensons que les deux populations ont une homogénéité de variances. Si les deux populations n'ont pas de variances homogènes, vous devez ajouter le paramètre égal_val et le définir sur False, comme suit.
stats.ttest_ind(data1,data2,equal_var=False) // La valeur par défaut dans TTest est l'homogénéité des variances
Interprétation des résultats
Lorsque la valeur p est inférieure à un certain niveau de signification α (tel que 0,05), on considère qu'il existe une différence significative dans les moyennes de l'échantillon. L'analyse spécifique dépend de l'hypothèse bilatérale. soit l'hypothèse unilatérale est choisie (elle est divisée en inférieur à et supérieur à) Notez que stats.ttest_ind effectue un test bilatéral.
Lorsque la valeur t est supérieure à 0, il y a ((1-p) * 100)% de confiance que le premier ensemble de données est meilleur que le deuxième ensemble de données. Par exemple, p = 0,05, nous sommes alors sûrs à 95 % que le premier ensemble de données est meilleur que le deuxième ensemble de données.
Tutoriel vidéo Python
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!