>백엔드 개발 >파이썬 튜토리얼 >그룹 수단을 사용하여 Pandas에서 누락된 값을 대치하는 방법은 무엇입니까?

그룹 수단을 사용하여 Pandas에서 누락된 값을 대치하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-12-05 16:29:10592검색

How to Impute Missing Values in Pandas Using Group Means?

Pandas에서 그룹 평균을 사용한 NaN 대치

각 그룹 내 평균을 사용하여 누락된 값을 채우는 것은 표 형식 데이터로 작업할 때 일반적인 작업입니다. 누락된 값이 있는 다음 DataFrame을 고려하세요.

df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3],
                   'name': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C']})

우리의 목표는 '이름' 열을 기반으로 각 그룹의 평균으로 누락된 값을 대치하는 것입니다.

이를 달성하기 위해 우리는 Pandas에서 groupby() 및 변환() 함수를 활용할 수 있습니다.

grouped = df.groupby('name').mean()
df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean()))

groupby() 함수는 '이름'을 기반으로 그룹을 만듭니다. 열, 평균()은 각 그룹의 평균값을 계산합니다. 변환() 함수는 이 평균값을 각 그룹 내의 각 행에 적용하고 누락된 값을 채웁니다.

결과 DataFrame:

print(df)

  name  value
0    A      1
1    A      1
2    B      2
3    B      2
4    B      3
5    B      1
6    C      3
7    C      3
8    C      3

설명:

  • mean() 함수는 각 그룹 내 평균값을 계산하여 그룹화된 새 DataFrame을 생성합니다.
  • transform() 함수는 평균값을 채우기 값으로 사용하여 각 그룹에 fillna() 메서드를 적용합니다. 이렇게 하면 각 그룹에 특정한 평균으로 결측값이 채워집니다.

대체 솔루션:

그룹 기반 결측값 대치에 대한 또 다른 접근 방식은 다음과 같습니다.

impute_cols = ['value']
df[impute_cols] = df[impute_cols].fillna(df.groupby('name')[impute_cols].transform('mean'))

두 방법 모두 동일한 결과를 얻지만 후자의 접근 방식은 여러 값을 대치할 때 더 많은 유연성을 제공합니다. 열입니다.

위 내용은 그룹 수단을 사용하여 Pandas에서 누락된 값을 대치하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.