>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame의 ID 그룹 조합 내에서 용어 발생을 효율적으로 계산하는 방법은 무엇입니까?

Pandas DataFrame의 ID 그룹 조합 내에서 용어 발생을 효율적으로 계산하는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-12-06 15:23:13583검색

How to Efficiently Count Term Occurrences within ID-Group Combinations in a Pandas DataFrame?

Pandas 데이터프레임에서 groupby 값 계산을 수행하는 방법은 무엇입니까?

'id' 및 'group' 열을 기준으로 데이터프레임을 그룹화하고 각각의 개수를 계산해야 합니다. 'id' 및 'group' 값의 각 고유 쌍에 대한 'term' 열의 고유 값입니다. 즉, 각 ID-그룹 조합에 각 용어가 얼마나 자주 나타나는지 결정해야 합니다.

Pandas의 groupby 및 size 기능을 사용하여 이를 달성할 수 있습니다.

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

이렇게 하면 id와 group을 인덱스로, term을 컬럼으로 하는 테이블입니다.

타이밍

이 방법은 대규모 데이터세트에도 효율적입니다. 1,000,000개의 행이 있는 데이터프레임의 경우 위 코드를 실행하는 데 약 6초밖에 걸리지 않습니다.

위 내용은 Pandas DataFrame의 ID 그룹 조합 내에서 용어 발생을 효율적으로 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.