Python 데이터 프레임에서 중복 열 제거
데이터 프레임으로 작업할 때 중복 열이 종종 발생하여 중복이 발생하고 잠재적으로 혼란을 야기할 수 있습니다. 고유한 열만 유지하려는 경우 이는 특히 실망스러울 수 있습니다. 다행히 Python pandas에는 중복 열을 제거하는 간단한 솔루션이 있습니다.
이름별 열 제거 솔루션
이름을 기준으로 중복 열을 제거하려면 다음을 사용하세요. line:
<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>
이 접근 방식은 ~ 연산자를 사용하여 중복 열 이름을 확인하는 df.columns.duplicated()에서 반환된 부울 값을 반전시킵니다. 그런 다음 결과 부울 배열은 df.loc 인덱싱에서 중복되지 않은 열만 선택하는 데 사용됩니다. 나중에 원본 데이터 프레임을 수정할 때 발생할 수 있는 오류를 방지하기 위해 .copy() 메서드가 추가되었습니다.
값별 중복 제거 솔루션
중복 열을 제거한다고 가정해 보겠습니다. 이름뿐만 아니라 값도 확인하세요. 이는 다음 코드를 사용하여 달성할 수 있습니다.
<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>
이 솔루션은 대규모 데이터 프레임의 경우 시간이 많이 걸릴 수 있는 데이터 프레임 전치를 방지합니다. 중복 값을 확인하기 위해 각 열에 람다 함수를 적용합니다. 그런 다음 결과 부울 배열을 사용하여 중복 값이 없는 열만 선택합니다.
참고: 값 기반 접근 방식을 사용할 때는 주의하세요. 경우에 따라 항상 원하는 결과를 얻지 못할 수도 있습니다.
추가 팁
위 내용은 Python DataFrames에서 중복 열을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!