집 >백엔드 개발 >파이썬 튜토리얼 >Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?

Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?

Mary-Kate Olsen원래의: 2024-11-13 17:29:02737검색

How to Efficiently Drop Consecutive Duplicates in Pandas?

Pandas에서 연속 중복 항목을 효율적으로 삭제

Pandas DataFrames로 작업할 때 중복 값을 제거해야 하는 경우가 많습니다. 그러나 내장된 drop_duplicates() 메서드는 연속 중복을 포함하여 중복 값의 모든 인스턴스를 제거합니다. 연속된 중복 항목만 삭제해야 하는 경우 더 효율적인 방법을 사용할 수 있습니다.

한 가지 접근 방식은 Shift() 함수를 사용하는 것입니다. DataFrame을 이동된 버전(a.shift(-1))과 비교하여 연속 중복이 발생하는 위치를 식별하는 부울 마스크를 생성할 수 있습니다. 그러면 다음 예에서 볼 수 있듯이 이 마스크를 사용하여 고유한 값만 선택할 수 있습니다.

a.loc[a.shift(-1) != a]

또 다른 방법은 diff() 함수를 활용하는 것입니다. 행 간의 차이를 계산하고 연속 중복을 식별하는 데 사용할 수 있습니다. 그러나 대규모 데이터 세트의 경우 Shift() 방법보다 느립니다.

사용 방법:

a.loc[a.diff() != 0]

원래 답변에서는 기간이 -1인 Shift()를 사용하는 것이 제안되었지만 올바른 사용법은 다음과 같습니다. 기본 이동 기간은 1이므로 Shift(1)(또는 간단히 Shift())입니다. 이렇게 수정하면 첫 번째 연속 값만 반환됩니다.

a.loc[a.shift(1) != a]

shift() 및 diff() 모두 방법은 Pandas에서 연속 중복 항목을 삭제하는 효율적인 방법을 제공하며 특정 컨텍스트 및 성능 요구 사항에 따라 고려해야 합니다.

위 내용은 Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

pandas Boolean for select using function default this

성명：

이전 기사：1D Numpy 배열에서 로컬 최대값과 최소값을 찾는 방법은 무엇입니까?다음 기사：1D Numpy 배열에서 로컬 최대값과 최소값을 찾는 방법은 무엇입니까?