>백엔드 개발 >파이썬 튜토리얼 >Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?

Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-13 17:29:02638검색

How to Efficiently Drop Consecutive Duplicates in Pandas?

Pandas에서 연속 중복 항목을 효율적으로 삭제

Pandas DataFrames로 작업할 때 중복 값을 제거해야 하는 경우가 많습니다. 그러나 내장된 drop_duplicates() 메서드는 연속 중복을 포함하여 중복 값의 모든 인스턴스를 제거합니다. 연속된 중복 항목만 삭제해야 하는 경우 더 효율적인 방법을 사용할 수 있습니다.

한 가지 접근 방식은 Shift() 함수를 사용하는 것입니다. DataFrame을 이동된 버전(a.shift(-1))과 비교하여 연속 중복이 발생하는 위치를 식별하는 부울 마스크를 생성할 수 있습니다. 그러면 다음 예에서 볼 수 있듯이 이 마스크를 사용하여 고유한 값만 선택할 수 있습니다.

a.loc[a.shift(-1) != a]

또 다른 방법은 diff() 함수를 활용하는 것입니다. 행 간의 차이를 계산하고 연속 중복을 식별하는 데 사용할 수 있습니다. 그러나 대규모 데이터 세트의 경우 Shift() 방법보다 느립니다.

사용 방법:

a.loc[a.diff() != 0]

원래 답변에서는 기간이 -1인 Shift()를 사용하는 것이 제안되었지만 올바른 사용법은 다음과 같습니다. 기본 이동 기간은 1이므로 Shift(1)(또는 간단히 Shift())입니다. 이렇게 수정하면 첫 번째 연속 값만 반환됩니다.

a.loc[a.shift(1) != a]

shift() 및 diff() 모두 방법은 Pandas에서 연속 중복 항목을 삭제하는 효율적인 방법을 제공하며 특정 컨텍스트 및 성능 요구 사항에 따라 고려해야 합니다.

위 내용은 Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.