Maison  >  Article  >  développement back-end  >  Comment calculer la valeur P de deux ensembles de données basés sur Python

Comment calculer la valeur P de deux ensembles de données basés sur Python

coldplay.xixi
coldplay.xixiavant
2020-07-16 17:40:466041parcourir

Comment calculer la valeur P de deux ensembles de données basés sur Python

Nous devons utiliser p_value lors de l'évaluation des tests A/B. Cet article explique comment utiliser Python pour calculer la signification de deux ensembles de données.

1. Code

# TTest.py
# -*- coding: utf-8 -*-
'''
# Created on 2020-05-20 20:36
# TTest.py
# @author: huiwenhua
'''

## Import the packages
import numpy as np
from scipy import stats

def get_p_value(arrA, arrB):

  a = np.array(arrA)
  b = np.array(arrB)

  t, p = stats.ttest_ind(a,b)

  return p

if __name__ == "__main__":
  get_p_value([1, 2, 3, 5, ], [6, 7, 8, 9, 10])

2. 🎜>
Le test t à deux échantillons consiste à comparer s'il existe une différence significative entre les moyennes des deux populations représentées par les deux échantillons. En plus d'exiger que les échantillons proviennent d'une distribution normale, cela exige également que les variances de population des deux échantillons soient égales, c'est-à-dire « l'homogénéité des variances ».

Tester l'hypothèse nulle : il n'y a pas de différence dans les moyennes de l'échantillon (μ=μ0)

Commande Python stats.ttest_ind(data1,data2)

Lorsqu'il est incertain si les variances des deux populations sont égales, vous devez d'abord utiliser le test de Levene pour tester si les deux populations ont une homogénéité de variances stats.levene(data1,data2). Si la valeur p du résultat renvoyé est bien supérieure à 0,05, alors nous pensons que les deux populations ont une homogénéité de variances. Si les deux populations n'ont pas de variances homogènes, vous devez ajouter le paramètre égal_val et le définir sur False, comme suit.

stats.ttest_ind(data1,data2,equal_var=False) // La valeur par défaut dans TTest est l'homogénéité des variances

Interprétation des résultats
Lorsque la valeur p est inférieure à un certain niveau de signification α (tel que 0,05), on considère qu'il existe une différence significative dans les moyennes de l'échantillon. L'analyse spécifique dépend de l'hypothèse bilatérale. soit l'hypothèse unilatérale est choisie (elle est divisée en inférieur à et supérieur à) Notez que stats.ttest_ind effectue un test bilatéral.


Lorsque la valeur t est supérieure à 0, il y a ((1-p) * 100)% de confiance que le premier ensemble de données est meilleur que le deuxième ensemble de données. Par exemple, p = 0,05, nous sommes alors sûrs à 95 % que le premier ensemble de données est meilleur que le deuxième ensemble de données.

Recommandations d'apprentissage associées :
Tutoriel vidéo Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer