>백엔드 개발 >파이썬 튜토리얼 >특정 열의 최대값 우선순위를 지정하면서 DataFrame에서 중복 행을 제거하는 방법은 무엇입니까?

특정 열의 최대값 우선순위를 지정하면서 DataFrame에서 중복 행을 제거하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-11-11 06:16:02471검색

How to Remove Duplicate Rows in a DataFrame While Prioritizing Maximum Values in a Specific Column?

B열의 최대값 우선순위를 지정하면서 중복 행 제거

DataFrame에서 중복 행을 처리하는 것은 종종 문제가 될 수 있습니다. 이 경우 목표는 A 열의 값을 기준으로 중복 행을 제거하고 B 열에서 가장 높은 값을 가진 행을 유지하는 것입니다.

이를 달성하기 위해 여러 작업을 조합하여 적용할 수 있습니다. 먼저, DataFrame은 sort_values ​​함수를 사용하여 B열을 기준으로 내림차순으로 정렬할 수 있습니다. 이렇게 하면 B열의 값이 가장 높은 행이 맨 위에 정렬됩니다.

df = df.sort_values('B', ascending=False)

다음으로, drop_duplicates 함수를 사용하여 A열의 값을 기준으로 중복 행을 제거할 수 있습니다. 그러나 우선순위를 유지하려면 행에서는 keep 매개변수가 last로 설정됩니다. 이렇게 하면 가장 최근에 발생한 행(일반적으로 열 B에서 가장 높은 값이 있는 행)이 유지됩니다.

df = df.drop_duplicates(subset='A', keep='last')

또는 적용과 결합된 그룹화 기능을 활용하여 작업을 수행할 수 있습니다. 이 접근 방식은 DataFrame을 A 열로 그룹화하고 각 그룹에 람다 함수를 적용합니다. 람다 함수 내에서 idxmax 메서드는 열 B의 최대값이 있는 행의 인덱스를 식별하는 데 사용됩니다. 결과 DataFrame에는 해당 최대값에 할당된 행만 포함됩니다.

df = df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])

이러한 메서드 적용 B 열에서 가장 높은 값을 가진 행을 유지하면서 A 열을 기준으로 중복 행을 제거하는 원하는 결과를 얻습니다.

위 내용은 특정 열의 최대값 우선순위를 지정하면서 DataFrame에서 중복 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.