Pandas의 크기와 개수의 차이 이해
Pandas에서 그룹별 작업은 데이터 탐색 및 집계를 위한 강력한 도구를 제공합니다. 일반적으로 사용되는 그룹별 작업 중에는 개수와 크기가 있습니다. 데이터를 효과적으로 분석하려면 이들의 차이점을 이해하는 것이 중요합니다.
개수 대 크기
개수 연산은 그룹 내에서 null이 아닌 값의 개수를 셉니다. 이와 대조적으로 크기 작업은 NaN 값을 포함한 모든 값을 계산합니다. 이러한 차이점은 누락된 값이 포함된 데이터세트로 작업할 때 더욱 분명해집니다.
예를 들어 다음 DataFrame을 고려하세요.
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
'a' 열을 기준으로 그룹화하고 'b' 열에 개수를 적용하는 경우 ':
print(df.groupby(['a'])['b'].count())
다음과 같은 결과가 출력됩니다.
a 0 2 1 1 2 2 Name: b, dtype: int64
이는 두 가지가 있음을 보여줍니다. 그룹 0에는 null이 아닌 값, 그룹 1에는 1개, 그룹 2에는 2개.
반면에 size를 사용하면 다음을 얻습니다.
print(df.groupby(['a'])['b'].size())
다음을 얻습니다.
a 0 2 1 1 2 3 dtype: int64
이 경우 결과에는 그룹 2의 NaN 값이 포함되어 크기가 모든 것을 설명함을 나타냅니다. 값.
따라서 특정 상황과 원하는 분석에 따라 개수와 크기 중에서 선택하는 것이 필수적입니다. 개수에서 null 값을 제외하려면 count를 사용하세요. 존재 여부에 관계없이 모든 값을 설명해야 하는 경우 크기를 사용하세요.
위 내용은 Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!