Pandas에서 인덱스를 기반으로 중복 행을 제거하는 방법
데이터 분석에서는 데이터세트. 데이터 조작을 위한 인기 있는 Python 라이브러리인 Pandas로 작업할 때 여러 행이 동일한 인덱스 값을 공유하는 시나리오가 발생할 수 있습니다. 이 문제는 데이터 입력 오류나 의도하지 않은 중복 등의 이유로 발생할 수 있습니다.
중복 행의 예
시간별 관측을 나타내는 다음 날씨 DataFrame을 고려하세요. 간격:
Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 2001-01-01 00:20:00 KPDX 0 0 3 2 10 110 30.28
이 DataFrame에서 DataFrame 끝에 "2001-01-01 00:00:00"이 중복되었습니다. 데이터를 정리하려면 이러한 중복 행을 제거하는 것이 중요합니다.
중복 방법 사용
Pandas는 중복 행을 식별하고 선택하기 위해 Duplicate라는 효율적인 방법을 제공합니다. 이 방법은 DataFrame의 모든 열을 기반으로 중복 행을 고려합니다. keep 매개변수를 전달하면 각 중복 그룹의 첫 번째 발생 또는 마지막 발생을 유지할지 지정할 수 있습니다.
이 경우 인덱스를 기반으로 각 중복 그룹의 첫 번째 발생을 유지하려고 합니다.
df3 = df3[~df3.index.duplicated(keep='first')]
이 접근 방식은 DataFrame의 인덱스에서 직접 작동하는 Pandas Index 개체의 Duplicate 메서드를 활용합니다. ~를 사용하여 결과를 부정함으로써 중복으로 표시되지 않은 행을 선택합니다. keep='first'를 지정하면 각 중복 인덱스 그룹의 첫 번째 인스턴스가 유지됩니다.
성능 고려 사항
다양한 방법의 성능에 유의하는 것이 중요합니다. 중복 행을 제거하는 방법은 데이터 및 특정 조건에 따라 다릅니다. 벤치마킹에 따르면, 주어진 예에서는 Duplicate 메서드가 가장 성능이 좋았고, Groupby 메서드와 Reset_index().drop_duplicates()가 그 뒤를 이었습니다.
위 내용은 Pandas의 인덱스를 기반으로 중복 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!