>  기사  >  백엔드 개발  >  Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?

Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-10-18 15:49:03923검색

How to Count Unique Values per Groups with Pandas?

Pandas를 사용하여 그룹당 고유 값 계산

표 형식 데이터로 작업할 때 특정 내에서 고유한 값 발생을 계산해야 하는 경우가 종종 있습니다. 여러 떼. Pandas 라이브러리를 사용하여 Python에서 이를 달성하려면 groupby() 및 nunique() 메소드를 활용할 수 있습니다.

문제 설명:

문제를 설명하려면 다음을 고려하십시오. 다음 데이터 세트:

ID domain
123 vk.com
123 vk.com
123 twitter.com
456 vk.com'
456 facebook.com
456 vk.com
456 google.com
789 twitter.com
789 vk.com

각 도메인 내의 고유 ID 값을 계산하는 작업이 있습니다.

해결책:

계산하려면 그룹당 고유한 값을 사용하려면 다음 코드를 사용할 수 있습니다.

<code class="python">df = df.groupby('domain')['ID'].nunique()</code>

groupby() 메서드는 도메인 열을 기준으로 데이터를 그룹화하는 반면, nunique() 메서드는 각 그룹 내에서 고유한 ID 발생 횟수를 계산합니다. 출력은 도메인 이름이 인덱스이고 해당 고유 값이 값으로 계산되는 시리즈입니다.

domain
vk.com        3
twitter.com   2
facebook.com  1
google.com    1

추가 참고 사항:

  • 도메인 열의 경우 값에 작은따옴표(')가 포함되어 있으면 str.strip("'") 메서드를 사용하여 그룹화하기 전에 이를 제거할 수 있습니다.
  • 출력에서 열 이름을 유지하려면 pd와 함께 agg() 메서드를 사용하세요. .Series.nunique 함수.

문자열 조작의 예:

<code class="python">df['clean_domain'] = df.domain.str.strip("'")
df = df.groupby('clean_domain')['ID'].nunique()</code>

agg()의 예:

<code class="python">df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>

위 내용은 Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.