Pandas GroupBy를 사용하여 각 그룹에 대한 통계 가져오기
데이터 분석을 수행할 때 데이터를 요약하고 관찰 그룹에 대한 통계를 계산해야 하는 경우가 많습니다. . Pandas의 GroupBy 기능은 이를 수행하는 편리한 방법을 제공합니다.
그룹 통계를 계산하려면 DataFrame에서 .groupby() 메서드를 사용하고 그룹화 기준으로 사용할 열을 지정하면 됩니다. 그런 다음 .agg() 메서드를 사용하여 각 그룹 내의 데이터를 집계할 수 있습니다.
예를 들어 다음 코드는 "col1" 및 "col2" 열을 기준으로 데이터를 그룹화하고 평균을 계산합니다.
df['col1', 'col2'].groupby(['col1', 'col2']).mean()
이것은 유사한 그룹 통계가 포함된 DataFrame을 반환합니다. 대상:
col3 col4 col5 col6 col1 col2 A B -0.3725 -0.810 0.0325 0.5425 C D -0.4766 -0.110 1.3467 -0.6833 E F 0.4550 0.475 -1.0650 0.0300 G H 1.4800 -0.630 0.6500 0.1700
행 수 포함
그룹 통계에 행 수를 추가하는 것은 간단합니다. .size() 메서드를 사용하여 각 그룹의 행 수를 계산할 수 있습니다. 예:
df.groupby(['col1', 'col2']).size()
이렇게 하면 행 개수가 포함된 시리즈가 반환되며, 이를 DataFrame에 추가할 수 있습니다.
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
여러 통계 포함
평균 외에도 .agg() 메서드를 사용하여 중앙값, 최소값, 최대값 등 다른 통계를 계산할 수 있습니다. 예를 들어, 다음 코드는 "col4" 열의 평균, 중앙값 및 최소값을 계산합니다.
df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})
이렇게 하면 다음과 유사한 그룹 통계가 포함된 DataFrame이 반환됩니다.
col4 mean median min col1 col2 A B -0.3725 -0.810 -1.32 C D -0.4766 -0.110 -1.65 E F 0.4550 0.475 -0.47 G H 1.4800 -0.630 -0.63
추가 고려사항
위 내용은 Pandas GroupBy는 어떻게 통계를 계산하고 데이터 분석을 위한 행 수를 포함할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!