집 >백엔드 개발 >파이썬 튜토리얼 >Pandas에서 중복 열을 제거하는 방법은 무엇입니까?

Pandas에서 중복 열을 제거하는 방법은 무엇입니까?

How to Remove Duplicate Columns in Pandas?

Pandas에서 중복 열을 제거하는 방법

중복 열이 있는 DataFrame을 처리하는 경우 해당 열을 제거하는 것이 좋습니다. 데이터 일관성 또는 분석 목적으로. 이를 달성하기 위한 간단한 솔루션은 다음과 같습니다.

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

메커니즘:

df.columns.duplicated()는 True가 중복을 나타내는 부울 배열을 생성합니다. 열 이름 및 False는 고유 이름을 나타냅니다.
~(논리적 부정)를 적용하면 이 배열이 반전되어 중복되지 않은 열만 선택됩니다.
df.loc[:,...]는 다음을 사용합니다. 중복되지 않은 열을 선택하기 위한 부울 인덱싱으로 중복 항목을 효과적으로 제거합니다.
copy()를 사용하면 제거된 중복 항목으로 새 DataFrame이 생성되고 원본 DataFrame은 영향을 받지 않습니다.

참고: 이 방법은 열 값이 아닌 열 이름을 기준으로 중복 항목을 확인합니다.

대체 접근 방식:

중복 제거 인덱스:

<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>

위와 유사한 메커니즘을 사용하여 중복 행을 제거하지만 열 이름 대신 인덱스를 확인합니다.

값으로 중복 제거( 주의):

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

이 접근 방식은 각 열을 검사하고 해당 열의 모든 값이 중복되면 제거합니다. 하지만 컬럼 이름이 아닌 값을 확인하므로 주의해서 사용해야 하며, 경우에 따라 원하는 결과가 나오지 않을 수도 있습니다.

위 내용은 Pandas에서 중복 열을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：