>백엔드 개발 >파이썬 튜토리얼 >GroupBy를 사용하여 Pandas에서 그룹별 통계를 계산하는 방법은 무엇입니까?

GroupBy를 사용하여 Pandas에서 그룹별 통계를 계산하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-19 21:26:111018검색

How to Calculate Group-Wise Statistics in Pandas Using GroupBy?

Pandas GroupBy를 사용하여 데이터프레임에 대한 그룹별 통계를 얻는 방법

데이터 작업 시 특정 기준에 따라 데이터를 요약하고 분석할 수 있는 것이 유용한 경우가 많습니다. 그룹화 기준. 데이터 조작 및 분석을 위한 강력한 Python 라이브러리인 Pandas는 GroupBy 기능을 통해 이를 수행하는 편리한 방법을 제공합니다.

빠른 답변

각 그룹 내의 행 수를 얻으려면 .size를 활용하세요. Series를 반환하는 () 메서드:

df.groupby(['col1','col2']).size()

이를 DataFrame 형식으로 변환하려면, 고용:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

또는 각 그룹의 행 수 및 기타 통계를 계산하기 위해 다음 접근 방식을 사용할 수 있습니다.

df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})

자세한 예

col1부터 col4까지의 열이 있는 df라는 데이터 프레임이 있습니다. 설명을 위해 그룹당 행 수를 계산해 보겠습니다.

df.groupby(['col1', 'col2']).size()

출력에는 col1 및 col2 값의 각 고유 조합에 있는 행 수가 표시됩니다.

이러한 수를 열을 DataFrame에 추가하면 .reset_index(name='counts')를 활용할 수 있습니다. 메서드:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

추가 통계 결과 포함

그룹화된 데이터에 대한 여러 통계를 계산하려면 agg() 메서드를 사용할 수 있습니다. 예를 들어 col3의 평균 및 개수와 col4의 중앙값, 최소값 및 개수를 계산하려면 다음을 사용합니다.

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'], 
    'col4': ['median', 'min', 'count']
})

이렇게 하면 col1의 각 고유 조합에 대해 요청된 통계가 포함된 DataFrame이 반환됩니다. 및 col2 값.

결론

Pandas GroupBy는 특정 기준에 따라 데이터를 분석하는 강력한 도구입니다. 적절한 방법과 집계를 활용하면 그룹별 통계를 효율적으로 확보하여 통찰력을 얻고 데이터를 더욱 철저하게 이해할 수 있습니다.

위 내용은 GroupBy를 사용하여 Pandas에서 그룹별 통계를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.