통계학자는 F 테스트를 사용하여 두 데이터 세트의 분산이 동일한지 확인합니다. F-검정은 Ronald Fisher 경의 이름을 따서 명명되었습니다. F-검정을 사용하기 위해 귀무가설과 대립가설이라는 두 가지 가설을 세웁니다. 그런 다음 두 가지 가설 중 F 테스트가 지지하는 가설을 선택합니다.
분산은 평균에서 데이터의 편차를 설명하는 데이터 분포의 척도입니다. 값이 높을수록 작은 값보다 분산이 더 커집니다.
이 기사에서는 사용 사례와 함께 Python 프로그래밍 언어로 F-Test를 수행하는 방법을 알아봅니다.
F-검정을 수행하는 과정은 다음과 같습니다.
먼저 귀무가설과 대립가설을 정의합니다.
귀무 가설 또는 H0: σ12 = σ22(동일 모집단 분산)
대립 가설 또는 H1: σ12 ≠ σ22(모집단 분산이 동일하지 않음)
테스트할 통계를 선택하세요.
전체 자유도를 계산합니다. 예를 들어 m과 n이 전체 형상이라면 자유도는 각각 (df1) = m–1, (df2) = n – 1으로 표현됩니다.
이제 F 테이블에서 F 값을 찾으세요.
마지막으로 양측 테스트의 알파 값을 2로 나누어 임계값을 계산합니다.
따라서 전체 자유도를 사용하여 F값을 정의합니다. 첫 번째 행에서 df1을 읽고 첫 번째 열에서 df2를 읽습니다.
고유한 자유도를 위한 다양한 F-테이블이 있습니다. 2단계의 F-통계량을 4단계에서 계산된 임계값과 비교합니다. 임계값이 F-통계량보다 작으면 귀무가설을 기각할 수 있습니다. 반대로, 임계값이 F-통계량보다 유의미한 수준보다 크면 귀무가설을 받아들일 수 있습니다.
데이터 세트를 기반으로 F-검정을 수행하기 전에 몇 가지 가정을 했습니다.
데이터는 일반적으로 정규 분포를 따릅니다. 즉, 종 모양의 곡선을 따릅니다.
표본 간에 상관관계가 없습니다. 즉, 모집단에 다중 공선성이 없습니다.
F-검정을 수행할 때는 이러한 가정 외에도 다음과 같은 주요 사항을 고려해야 합니다.
오른쪽 꼬리 테스트를 수행하려면 최대 분산 값이 분자에 있어야 합니다.
양측 테스트에서는 알파를 2로 나누어 임계값을 결정합니다.
분산이나 표준편차가 있는지 확인하세요.
F 테이블에 자유도가 없으면 최대값이 임계값으로 사용됩니다.
이 방법에서 사용자는 f_value와 각 배열의 반복 가능한 길이를 scipy.stats.f.cdf()에 전달하고 여기서 1을 빼서 F 테스트를 수행해야 합니다.
먼저 작업을 위해 NumPy 및 Scipy.stats 라이브러리를 가져옵니다.
그런 다음 두 개의 서로 다른 변수 이름을 사용하여 무작위로 선택한 두 개의 값 목록을 만들고 이를 NumPy 배열로 변환한 다음 Numpy를 사용하여 각 배열의 분산을 계산합니다.
먼저 배열의 분산을 자유도 1로 나누는 F-점수 계산 함수를 정의합니다.
그런 다음 각 배열의 반복 가능한 길이를 계산하고 f 값(분산 비율)과 길이를 CDF 함수에 전달하고 1에서 길이를 빼서 p 값을 계산합니다.
마지막으로 함수는 p_value와 f_value를 반환합니다.
F-검정 값은 4.38712이고 해당 p-값은 0.019127임을 알 수 있습니다.
p값이 0.05보다 작으므로 귀무가설을 기각하겠습니다. 따라서 두 모집단의 분산이 동일하지 않다고 말할 수 있습니다.
이 기사를 읽고 나면 이제 F-검정을 사용하여 두 표본이 동일한 분산을 가진 모집단에 속하는지 확인하는 방법을 알게 되었습니다. F-검정 절차, 가정 및 Python 구현에 대해 배웠습니다. 몇 가지 핵심 사항으로 이 기사를 마무리하겠습니다 -
F 검정은 두 모집단의 분산이 같은지 여부를 알려줍니다.
자유도를 계산하고 임계값을 계산합니다.
F-테이블에서 F-통계량을 찾아 이전 단계에서 계산된 키 값과 비교합니다.
임계값과 F-통계량 비교를 기반으로 귀무가설을 수락하거나 거부합니다.
위 내용은 Python에서 F-테스트를 수행하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!