>백엔드 개발 >파이썬 튜토리얼 >Pandas GroupBy: 'size'와 'count'를 언제 사용해야 합니까?

Pandas GroupBy: 'size'와 'count'를 언제 사용해야 합니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-01 18:36:11552검색

Pandas GroupBy: When Should I Use `size` vs. `count`?

그룹화 작업을 위한 Pandas의 '크기'와 '개수' 구별

Pandas의 groupby() 기능을 사용할 때 '크기'와 '개수'를 구별합니다. 이러한 함수는 그룹 개수에 적용될 때 유사한 결과를 생성하는 것처럼 보이지만 데이터 분석에 영향을 줄 수 있는 미묘한 차이가 있습니다.

'count' 함수는 특히 그룹에서 Null이 아닌 값의 개수를 계산합니다. 즉, 그룹에 누락된 값(NaN 또는 None)이 있으면 개수에서 제외됩니다. 이 동작을 통해 그룹 개수를 계산할 때 유효한 관측값만 고려할 수 있습니다.

반면 '크기' 함수는 누락된 값이 있는 관측값을 포함하여 그룹의 총 관측값 수를 계산합니다. 즉, 유효한 관찰과 유효하지 않은 관찰이 모두 계산되어 그룹 규모에 대한 더 넓은 그림을 제공합니다.

이 차이점을 설명하기 위해 다음 예를 고려하십시오.

df = pd.DataFrame({'a': [0, 0, 1, 2, 2, 2], 'b': [1, 2, 3, 4, np.NaN, 4], 'c': np.random.randn(6)})

print(df.groupby(['a'])['b'].count())
print(df.groupby(['a'])['b'].size())

출력은 다음과 같습니다. :

a
0    2
1    1
2    2
Name: b, dtype: int64

a
0    2
1    1
2    3
dtype: int64

보시다시피 'count' 함수는 'a=2' 그룹의 NaN 값을 제외하는 반면, '크기' 기능이 포함되어 있습니다. 데이터 세트에 누락된 데이터가 포함되어 있고 분석을 위해 이를 적절하게 처리해야 하는 경우 이러한 구별은 매우 중요합니다.

위 내용은 Pandas GroupBy: 'size'와 'count'를 언제 사용해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.