Z-점수를 사용하여 Pandas DataFrame에서 이상값 감지 및 제외
Pandas DataFrame에서 이상값을 식별하고 제거하는 것은 정확성을 보장하고 데이터 분석의 신뢰성. 이를 달성하기 위한 일반적인 접근 방식은 데이터 포인트가 평균에서 벗어난 표준 편차 수를 측정하는 Z 점수를 활용하는 것입니다.
이 접근 방식을 구현하려면 scipy.stats.zscore 함수를 사용해야 합니다. 주어진 데이터 배열에 대한 Z 점수를 계산합니다. DataFrame의 각 열에 Z-점수를 적용하면 어떤 행에 평균과 크게 다른 값이 포함되어 있는지 확인할 수 있습니다.
예를 들어 "와 같은 특정 열이 있는 모든 행을 제외하려면 Vol"에 이상값이 포함된 경우 다음 표현식을 사용할 수 있습니다.
df[(np.abs(stats.zscore(df["Vol"])) < 3).all(axis=1)]
이 표현식은 "Vol" 열의 각 값에 대한 절대 Z 점수를 계산합니다. 절대값은 평균에서 벗어나는 방향을 무시하기 위해 사용됩니다. 결과는 True가 이상값이 없는 행을 나타내는 부울 마스크입니다. 이 마스크를 사용하여 DataFrame을 인덱싱하면 극단적인 "Vol" 값이 있는 행이 효과적으로 제외됩니다.
여러 열을 고려해야 하는 경우 구문을 수정하여 모든 열에서 이상값이 있는 행을 검사할 수 있습니다.
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]
이 경우 (np.abs(stats.zscore(df)) < 3)은 모든 열에 대한 Z 점수를 계산하고 3 표준편차 임계값. all(axis=1) 조건은 모든 열의 기준을 충족하는 행을 선택합니다.
Z-점수와 제공된 표현식을 활용하면 이상치 데이터 포인트를 간단하게 필터링하여 깨끗하고 안정적인 데이터세트를 보장할 수 있습니다. 추가 분석을 위해
위 내용은 Z-Score는 Pandas DataFrames에서 이상값을 식별하고 제거하는 데 어떻게 도움이 됩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!