Pandas 그룹 내에서 최고 기록 얻기
다음 데이터세트에서:
df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4], 'value':[1,2,3,1,2,3,4,1,1]})
우리는 각 ID에 대한 상위 2개 레코드입니다. 간단한 접근 방식은 groupby 방법을 사용하여 각 그룹 내에서 행 번호를 할당하는 것입니다.
dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()
그러나 head 함수는 더 효율적인 솔루션을 제공합니다.
df.groupby('id').head(2)
이 작업은 다음을 생성합니다.
id value id 1 0 1 1 1 1 2 2 3 2 1 4 2 2 3 7 3 1 4 8 4 1
MultiIndex를 제거하고 결과를 평면화하려면, 사용:
df.groupby('id').head(2).reset_index(drop=True)
이렇게 하면 원하는 결과가 나옵니다.
id value 0 1 1 1 1 2 2 2 1 3 2 2 4 3 1 5 4 1
따라서 head 함수는 각 Pandas 그룹 내의 최상위 레코드를 검색하기 위한 간결하고 최적화된 접근 방식을 제공합니다.
위 내용은 각 Pandas 그룹 내에서 상위 N개 레코드를 효율적으로 얻는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!