>  기사  >  백엔드 개발  >  Python을 기반으로 두 데이터 세트의 P 값을 계산하는 방법

Python을 기반으로 두 데이터 세트의 P 값을 계산하는 방법

coldplay.xixi
coldplay.xixi앞으로
2020-07-16 17:40:466030검색

Python을 기반으로 두 데이터 세트의 P 값을 계산하는 방법

A/B 테스트 평가를 수행할 때 p_value를 사용해야 합니다. 이 기사에서는 Python을 사용하여 두 데이터 세트의 유의성을 계산하는 방법을 기록합니다.

1. 코드

# TTest.py
# -*- coding: utf-8 -*-
'''
# Created on 2020-05-20 20:36
# TTest.py
# @author: huiwenhua
'''

## Import the packages
import numpy as np
from scipy import stats

def get_p_value(arrA, arrB):

  a = np.array(arrA)
  b = np.array(arrB)

  t, p = stats.ttest_ind(a,b)

  return p

if __name__ == "__main__":
  get_p_value([1, 2, 3, 5, ], [6, 7, 8, 9, 10])

2. T-검정: 2-표본 T-검정

2-표본 t-검정은 두 모집단이 다음과 같이 표현되는지 비교하는 것입니다. 두 샘플의 차이가 큽니다. 표본이 정규 분포에서 나오도록 요구하는 것 외에도 두 표본의 모집단 분산이 동일해야 하며, 이는 "분산의 동질성"입니다.

귀무 가설 테스트: 표본 평균에 차이가 없습니다(μ=μ0)

Python 명령 stats.ttest_ind(data1,data2)

두 모집단의 분산이 같은지 확실하지 않은 경우 다음을 수행해야 합니다. 먼저 Levene 테스트를 사용하여 두 모집단에 분산이 있는지 테스트합니다. 동질성 stats.levene(data1,data2) 반환된 결과의 p-값이 0.05보다 훨씬 크면 두 모집단에 분산의 동질성이 있다고 믿습니다. 두 모집단에 동종 분산이 없으면 다음과 같이 매개변수 equal_val을 추가하고 이를 False로 설정해야 합니다.

stats.ttest_ind(data1,data2,equal_var=False) // TTest의 기본값은 분산의 동질성입니다

3. 결과 해석

p 값이 특정 유의 수준 α보다 작은 경우( 0.05 등), 표본 평균에 유의미한 차이가 있는 것으로 간주되며, 구체적인 분석은 선택한 가설이 양측 가설인지(보다 작음과 큼으로 구분됨) 단측 가설인지에 따라 달라집니다. 양면 테스트를 수행하려면 stats.ttest_ind로 이동하세요.

t 값이 0보다 크면 첫 번째 데이터 세트가 두 번째 데이터 세트보다 낫다는 ((1-p)*100)% 신뢰도가 있습니다. 예를 들어, p=0.05이면 첫 번째 데이터 세트가 두 번째 데이터 세트보다 낫다고 95% 확신합니다.

관련 학습 권장사항: python 비디오 튜토리얼

위 내용은 Python을 기반으로 두 데이터 세트의 P 값을 계산하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jb51.net에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제