>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame의 각 그룹에서 상위 N개 레코드를 효율적으로 추출하려면 어떻게 해야 합니까?

Pandas DataFrame의 각 그룹에서 상위 N개 레코드를 효율적으로 추출하려면 어떻게 해야 합니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-28 06:19:13882검색

How Can I Efficiently Extract the Top N Records from Each Group in a Pandas DataFrame?

Pandas: 각 그룹 내에서 효율적으로 상위 레코드 추출

DataFrame의 각 그룹 내에서 상위 레코드를 얻는 것은 데이터 조작의 일반적인 작업입니다. . 이 문서에서는 SQL 창 함수에서 영감을 얻은 솔루션을 포함하여 이 목표를 달성하기 위한 다양한 접근 방식을 제시합니다.

문제 설명:
그룹화 열과 값 열이 있는 DataFrame이 주어지면 각 그룹의 상위 n개 레코드를 추출하려고 합니다.

그룹화 및 행을 사용한 순진한 접근 방식 번호 매기기:
이 문제에 접근하는 한 가지 방법은 그룹화 작업을 적용한 후 창 함수와 유사한 접근 방식을 적용하는 것입니다. 여기에는 각 그룹 내의 각 레코드에 행 번호를 추가한 다음 해당 행 번호를 기준으로 상위 행을 필터링하는 작업이 포함됩니다.

실용적인 솔루션:
보다 효율적인 솔루션은 그룹화된 DataFrame의 head() 메서드입니다. 기본적으로 head()는 각 그룹의 처음 n개 레코드를 반환합니다. 이는 최고 기록을 획득하려는 목적과 잘 일치합니다.

df.groupby('id').head(2)

MultiIndex 제거:
그룹화 작업으로 도입된 MultiIndex를 제거하려면 다음을 사용합니다. Reset_index(drop=True):

df.groupby('id').head(2).reset_index(drop=True)

출력:

   id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

행 번호 매기기를 위한 우아한 접근 방식:
Python에는 row_number() 함수가 없지만 SQL에서는 groupby()와 cumcount()의 조합을 사용하여 그 기능을 복제할 수 있습니다. 방법은 다음과 같습니다.

df['row_num'] = df.groupby('id').cumcount() + 1

이 접근 방식은 추가 열이나 다중 인덱스를 도입하지 않고 각 그룹 내에 고유한 행 번호를 할당합니다.

위 내용은 Pandas DataFrame의 각 그룹에서 상위 N개 레코드를 효율적으로 추출하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.