>  기사  >  백엔드 개발  >  Python DataFrames에서 중복 열을 제거하는 방법은 무엇입니까?

Python DataFrames에서 중복 열을 제거하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-04 08:11:02717검색

How to Remove Duplicate Columns in Python DataFrames?

Python 데이터 프레임에서 중복 열 제거

데이터 프레임으로 작업할 때 중복 열이 종종 발생하여 중복이 발생하고 잠재적으로 혼란을 야기할 수 있습니다. 고유한 열만 유지하려는 경우 이는 특히 실망스러울 수 있습니다. 다행히 Python pandas에는 중복 열을 제거하는 간단한 솔루션이 있습니다.

이름별 열 제거 솔루션

이름을 기준으로 중복 열을 제거하려면 다음을 사용하세요. line:

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

이 접근 방식은 ~ 연산자를 사용하여 중복 열 이름을 확인하는 df.columns.duplicated()에서 반환된 부울 값을 반전시킵니다. 그런 다음 결과 부울 배열은 df.loc 인덱싱에서 중복되지 않은 열만 선택하는 데 사용됩니다. 나중에 원본 데이터 프레임을 수정할 때 발생할 수 있는 오류를 방지하기 위해 .copy() 메서드가 추가되었습니다.

값별 중복 제거 솔루션

중복 열을 제거한다고 가정해 보겠습니다. 이름뿐만 아니라 값도 확인하세요. 이는 다음 코드를 사용하여 달성할 수 있습니다.

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

이 솔루션은 대규모 데이터 프레임의 경우 시간이 많이 걸릴 수 있는 데이터 프레임 전치를 방지합니다. 중복 값을 확인하기 위해 각 열에 람다 함수를 적용합니다. 그런 다음 결과 부울 배열을 사용하여 중복 값이 ​​없는 열만 선택합니다.

참고: 값 기반 접근 방식을 사용할 때는 주의하세요. 경우에 따라 항상 원하는 결과를 얻지 못할 수도 있습니다.

추가 팁

  • 중복 행을 제거하려면 df를 사용하여 동일한 기술을 인덱스에 적용하세요. loc[~df.index.duplicated(),:].
  • drop_duplicates() 메서드를 사용하여 특정 열을 기반으로 중복 행을 제거합니다.

위 내용은 Python DataFrames에서 중복 열을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.