>백엔드 개발 >파이썬 튜토리얼 >여러 열을 기반으로 Pandas DataFrame에서 중복 행의 빈도를 계산하는 방법은 무엇입니까?

여러 열을 기반으로 Pandas DataFrame에서 중복 행의 빈도를 계산하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-10-25 03:17:02645검색

How to Count the Frequency of Duplicate Rows in a Pandas DataFrame Based on Multiple Columns?

여러 데이터프레임 열을 기반으로 빈도 수 가져오기

각 행이 여러 열로 구성된 특정 데이터프레임에서는 다음이 필요한 경우가 많습니다. 중복 행이 나타나는 빈도를 결정합니다. 이 작업은 Python의 pandas 라이브러리를 사용하여 수행할 수 있습니다.

솔루션

pandas groupby() 함수를 사용하면 특정 열을 기준으로 행을 그룹화할 수 있습니다. 중복 행의 빈도를 계산하려면 원하는 열별로 그룹화하고 size() 함수를 활용할 수 있습니다.

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>

이 코드는 그룹 키를 인덱스로 사용하고 빈도를 사용하여 pandas.Series 개체를 생성합니다. 값으로 계산합니다. 이를 데이터 프레임으로 변환하려면 Reset_index() 함수를 사용할 수 있습니다.

<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>

이 예에서 결과 데이터 프레임에는 "그룹", "크기" 및 "시간"에 대한 열이 있습니다. "시간"은 빈도 수를 나타냅니다.

또 다른 접근 방식은 groupby()에서 as_index=False 인수를 사용하는 것입니다.

<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>

이렇게 하면 추가 작업 없이 데이터프레임이 직접 생성됩니다. 인덱스 조작.

이러한 기술을 활용하면 데이터 프레임의 여러 열을 기반으로 빈도 수를 쉽게 얻고 데이터 분포에 대한 귀중한 통찰력을 얻을 수 있습니다.

위 내용은 여러 열을 기반으로 Pandas DataFrame에서 중복 행의 빈도를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.