>백엔드 개발 >파이썬 튜토리얼 >Pandas에서 도메인별로 그룹화된 고유 값을 계산하는 방법은 무엇입니까?

Pandas에서 도메인별로 그룹화된 고유 값을 계산하는 방법은 무엇입니까?

DDD
DDD원래의
2024-10-18 15:51:03569검색

How to Count Distinct Values Grouped by Domain in Pandas?

Pandas에서 도메인별로 그룹화된 고유 값 계산

각 도메인 내의 고유한 사용자 ID를 확인하려면 Pandas의 nunique()를 활용할 수 있습니다. 기능. 이 함수는 하나 이상의 다른 열로 그룹화된 지정된 열의 고유 값 수를 계산합니다.

귀하의 경우 데이터를 도메인별로 그룹화하고 nunique()를 사용하여 ID의 고유 값을 계산할 수 있습니다. 열:

<code class="python">df.groupby('domain')['ID'].nunique()</code>

이렇게 하면 도메인을 인덱스로, 각 도메인의 고유 ID 개수를 값으로 사용하여 DataFrame이 생성됩니다.

domain count
vk.com 3
twitter.com 2
facebook.com 1
google.com 1

도메인 값 앞에 또는 후행 작은따옴표(')는 str.strip("'") 메서드를 사용하여 그룹화하기 전에 제거할 수 있습니다.

<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>

또는 다음을 사용하여 출력 DataFrame에서 도메인 열 이름을 유지할 수 있습니다. as_index=False인 agg() 함수:

<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>

이 접근 방식은 도메인 열과 각 도메인의 고유 ID 수가 포함된 ID라는 새 열이 있는 DataFrame을 반환합니다.

위 내용은 Pandas에서 도메인별로 그룹화된 고유 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.