>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame의 각 그룹 내에서 상위 N개 레코드를 효율적으로 가져오는 방법은 무엇입니까?

Pandas DataFrame의 각 그룹 내에서 상위 N개 레코드를 효율적으로 가져오는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-11-25 03:16:14553검색

How to Efficiently Get the Top N Records within Each Group of a Pandas DataFrame?

DataFrame의 각 그룹 내에서 최상위 n개 레코드 가져오기

DataFrame의 각 그룹에 대한 상위 n개 레코드를 얻으려면 Pandas' 활용을 고려하세요. 효율적인 방법. 'id' 및 'value' 열이 있는 다음 DataFrame이 있다고 가정합니다.

df = pd.DataFrame({'id': [1, 1, 1, 2, 2, 2, 2, 3, 4], 'value': [1, 2, 3, 1, 2, 3, 4, 1, 1]})

groupby() 및 head() 함수를 사용하여 각 'id'에 대한 상위 2개 레코드를 검색할 수 있습니다.

df_top2 = df.groupby('id').head(2)

출력:

       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

MultiIndex를 평면화하고 중복 행을 제거하려면 인덱스, Reset_index() 적용:

df_top2 = df.groupby('id').head(2).reset_index(drop=True)

결과:

    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

또는 각 그룹의 상위 n개를 선택하기 전에 레코드를 정렬해야 하는 경우 먼저 정렬을 적용합니다.

df_sorted = df.sort_values('value', ascending=False)
df_top2 = df_sorted.groupby('id').head(2)

이는 각 그룹 내 최고 기록을 획득하기 위한 보다 효율적이고 우아한 접근 방식을 제공합니다. 데이터프레임.

위 내용은 Pandas DataFrame의 각 그룹 내에서 상위 N개 레코드를 효율적으로 가져오는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.