'id' 및 'group' 열을 기준으로 데이터프레임을 그룹화하고 각각의 개수를 계산해야 합니다. 'id' 및 'group' 값의 각 고유 쌍에 대한 'term' 열의 고유 값입니다. 즉, 각 ID-그룹 조합에 각 용어가 얼마나 자주 나타나는지 결정해야 합니다.
Pandas의 groupby 및 size 기능을 사용하여 이를 달성할 수 있습니다.
df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)
이렇게 하면 id와 group을 인덱스로, term을 컬럼으로 하는 테이블입니다.
이 방법은 대규모 데이터세트에도 효율적입니다. 1,000,000개의 행이 있는 데이터프레임의 경우 위 코드를 실행하는 데 약 6초밖에 걸리지 않습니다.
위 내용은 Pandas DataFrame의 ID 그룹 조합 내에서 용어 발생을 효율적으로 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!