>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame에서 중복 인덱스가 있는 행을 제거하는 방법은 무엇입니까?

Pandas DataFrame에서 중복 인덱스가 있는 행을 제거하는 방법은 무엇입니까?

DDD
DDD원래의
2024-11-22 10:22:10981검색

How to Remove Rows with Duplicate Indices in a Pandas DataFrame?

Python Pandas에서 중복 인덱스가 있는 행을 제거하는 방법

데이터 분석의 맥락에서 중복 인덱스를 처리하는 것은 문제가 될 수 있습니다. 이 기사에서는 날씨 DataFrame에 나타난 특정 사례에 초점을 맞춰 Pandas DataFrame에서 중복 인덱스가 있는 행을 제거하는 다양한 접근 방식을 살펴봅니다.

문제:

과학자가 웹에서 날씨 데이터를 검색합니다. 여기에는 5분마다 기록된 관찰 내용이 포함됩니다. 때로는 수정된 관찰이 각 파일 끝에 중복 행으로 추가됩니다. 목표는 이러한 중복 행을 제거하여 데이터 일관성과 정확성을 보장하는 것입니다.

해결책:

중복 행을 제거하는 효과적인 방법 중 하나는 Pandas Index에 적용되는 중복 방법을 이용하는 것입니다. 이 방법은 각 행의 인덱스를 비교하여 중복된 항목에 플래그를 지정하여 사용자가 편리하게 제거할 수 있도록 합니다. 다음 코드는 이 접근 방식을 보여줍니다.

df3 = df3[~df3.index.duplicated(keep='first')]

이 코드는 각 중복 인덱스 값의 첫 번째 발생을 유지하여 추가 행을 제거합니다.

대체 방법:

또는, 중복 행을 제거하기 위해 다른 방법을 사용할 수 있습니다. 그러나 이러한 방법은 성능과 효율성이 다를 수 있습니다.

  • drop_duplicates: 적합하지만 복제 방법에 비해 상대적으로 느립니다.
  • groupby: 이 방법은 첫 번째 함수와 함께 사용하여 각 중복 항목의 첫 번째 발생을 유지할 수 있습니다. index.
  • reset_index 및 set_index: 이 조합은 중복 인덱스를 처리하는 데 사용할 수 있지만 중복 방법만큼 최적이 아닙니다.

성능 비교 :

제공된 예시 데이터를 활용한 성능 테스트 결과, 중복된 방식이 가장 좋은 성능을 보이는 것으로 나타났습니다. 그룹바이 방식으로요. 성능은 데이터 세트 크기 및 구조에 따라 달라질 수 있습니다.

MultiIndex 지원:

중복 방법은 MultiIndex에서도 작동하여 여러 인덱스 수준을 사용하여 중복 행을 제거할 수 있습니다. 이 기능은 다양성을 제공하고 데이터 일관성을 향상시킵니다.

결론:

중복 방법은 Pandas DataFrames에서 중복 인덱스가 있는 행을 제거하기 위한 매우 효율적이고 간결한 솔루션입니다. 유연성, 성능, MultiIndex 구조 처리 기능을 제공하므로 데이터 정리 및 전처리 작업에 유용한 도구입니다.

위 내용은 Pandas DataFrame에서 중복 인덱스가 있는 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.