>백엔드 개발 >파이썬 튜토리얼 >표준 편차를 사용하여 Pandas DataFrame에서 이상값을 어떻게 감지하고 제외할 수 있나요?

표준 편차를 사용하여 Pandas DataFrame에서 이상값을 어떻게 감지하고 제외할 수 있나요?

Barbara Streisand
Barbara Streisand원래의
2024-12-11 10:26:16949검색

How Can I Detect and Exclude Outliers in a Pandas DataFrame Using Standard Deviations?

표준 편차를 사용하여 Pandas DataFrame에서 이상값 감지 및 제외

이상값은 전체 데이터의 나머지 부분에서 크게 벗어나는 데이터 포인트입니다. 분포. 이상값을 식별하고 제외하면 편향되거나 잡음이 많은 관측값을 제거하여 데이터 분석을 개선할 수 있습니다. Pandas는 표준 편차 사용을 포함하여 이상값을 처리하는 여러 가지 방법을 제공합니다.

평균에서 특정 표준 편차 수를 초과하는 값이 있는 행을 제외하려면 scipy.stats.zscore 함수를 활용할 수 있습니다. 이 함수는 각 데이터 포인트에 대한 Z-점수를 계산하여 평균에서 벗어난 표준 편차 수를 나타냅니다.

import pandas as pd
import numpy as np
from scipy import stats

# Create a sample dataframe
df = pd.DataFrame({'Vol': [1200, 1230, 1250, 1210, 4000]})

# Calculate Z-score for the 'Vol' column
zscores = stats.zscore(df['Vol'])

# Exclude rows with Z-score greater than 3
filtered_df = df[np.abs(zscores) < 3]

이 접근 방식은 구체적으로 'Vol' 열의 이상값을 감지하고 제외합니다. 유연성을 높이기 위해 이 필터를 여러 열에 동시에 적용할 수 있습니다.

# Calculate Z-scores for all columns
zscores = stats.zscore(df)

# Exclude rows with any column Z-score greater than 3
filtered_df = df[(np.abs(zscores) < 3).all(axis=1)]

임계값(이 경우 3)을 조정하여 이상값 제외 수준을 제어할 수 있습니다. 임계값이 작을수록 이상값이 더 보수적으로 감지되고 임계값이 클수록 잠재적인 이상값이 더 많이 제외됩니다.

이 접근 방식을 사용하면 Pandas DataFrame 분석을 왜곡할 수 있는 이상값을 효과적으로 식별하고 제거할 수 있습니다.

위 내용은 표준 편차를 사용하여 Pandas DataFrame에서 이상값을 어떻게 감지하고 제외할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.