A/B 테스트 평가를 수행할 때 p_value를 사용해야 합니다. 이 기사에서는 Python을 사용하여 두 데이터 세트의 유의성을 계산하는 방법을 기록합니다.
1. 코드
# TTest.py # -*- coding: utf-8 -*- ''' # Created on 2020-05-20 20:36 # TTest.py # @author: huiwenhua ''' ## Import the packages import numpy as np from scipy import stats def get_p_value(arrA, arrB): a = np.array(arrA) b = np.array(arrB) t, p = stats.ttest_ind(a,b) return p if __name__ == "__main__": get_p_value([1, 2, 3, 5, ], [6, 7, 8, 9, 10])
2. T-검정: 2-표본 T-검정
2-표본 t-검정은 두 모집단이 다음과 같이 표현되는지 비교하는 것입니다. 두 샘플의 차이가 큽니다. 표본이 정규 분포에서 나오도록 요구하는 것 외에도 두 표본의 모집단 분산이 동일해야 하며, 이는 "분산의 동질성"입니다.
귀무 가설 테스트: 표본 평균에 차이가 없습니다(μ=μ0)
Python 명령 stats.ttest_ind(data1,data2)
두 모집단의 분산이 같은지 확실하지 않은 경우 다음을 수행해야 합니다. 먼저 Levene 테스트를 사용하여 두 모집단에 분산이 있는지 테스트합니다. 동질성 stats.levene(data1,data2) 반환된 결과의 p-값이 0.05보다 훨씬 크면 두 모집단에 분산의 동질성이 있다고 믿습니다. 두 모집단에 동종 분산이 없으면 다음과 같이 매개변수 equal_val을 추가하고 이를 False로 설정해야 합니다.
stats.ttest_ind(data1,data2,equal_var=False) // TTest의 기본값은 분산의 동질성입니다
3. 결과 해석
p 값이 특정 유의 수준 α보다 작은 경우( 0.05 등), 표본 평균에 유의미한 차이가 있는 것으로 간주되며, 구체적인 분석은 선택한 가설이 양측 가설인지(보다 작음과 큼으로 구분됨) 단측 가설인지에 따라 달라집니다. 양면 테스트를 수행하려면 stats.ttest_ind로 이동하세요.
t 값이 0보다 크면 첫 번째 데이터 세트가 두 번째 데이터 세트보다 낫다는 ((1-p)*100)% 신뢰도가 있습니다. 예를 들어, p=0.05이면 첫 번째 데이터 세트가 두 번째 데이터 세트보다 낫다고 95% 확신합니다.
관련 학습 권장사항: python 비디오 튜토리얼
위 내용은 Python을 기반으로 두 데이터 세트의 P 값을 계산하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!