>백엔드 개발 >파이썬 튜토리얼 >열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?

열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-16 11:35:03253검색

How to Remove Duplicates by Columns and Retain Rows with Maximum Values?

열별로 중복 항목을 제거하고 최대값을 갖는 행을 유지하는 작업

데이터 프레임에서 중복 값을 발견하는 것은 어려울 수 있습니다. 해당 값이 가장 높은 행을 유지하는 것이 중요한 시나리오에서는 효과적인 기술을 사용하는 것이 필수적입니다.

이 문제를 해결하려면 열 A에 중복 항목이 있는 다음 데이터 프레임을 고려하세요.

A B
1 10
1 20
2 30
2 40
3 10

목표는 A열에서 중복 항목을 제거하고 B열에 최대값이 있는 행을 유지하는 것입니다. 이상적으로 결과는 다음과 같아야 합니다. 이:

A B
1 20
2 40
3 10

한 가지 접근 방식은 중복 항목을 제거하기 전에 데이터프레임을 정렬하는 것입니다.

df = df.sort_values(by='B', ascending=False)
df.drop_duplicates(subset='A', keep='first')

이 방법은 작동하지만 행을 오름차순으로 정렬하므로 최대값 유지를 보장하지 않습니다. . 이 제한을 극복하기 위해 다음 접근 방식을 사용할 수 있습니다.

df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])

이 작업은 데이터 프레임을 A 열로 그룹화하고 B 열의 최대값을 가진 인덱스를 찾아 해당 행을 선택합니다. 그 결과 중복 항목이 제거되고 최대값이 보존된 업데이트된 데이터프레임이 생성됩니다.

위 내용은 열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.