>백엔드 개발 >파이썬 튜토리얼 >Pandas의 여러 열에서 중복 행을 제거하는 방법은 무엇입니까?

Pandas의 여러 열에서 중복 행을 제거하는 방법은 무엇입니까?

DDD
DDD원래의
2024-12-19 10:24:15339검색

How to Remove Duplicate Rows Across Multiple Columns in Pandas?

Python Pandas의 여러 열에서 중복 항목 제거

Pandas의 drop_duplicates 함수는 지정된 열을 기반으로 중복 행을 제거하는 편리한 방법을 제공합니다. 그러나 단일 열이 아닌 여러 열의 하위 집합에서 중복 항목을 삭제하려면 어떻게 해야 할까요?

이를 달성하기 위해 하위 집합 매개변수와 함께 drop_duplicates의 기능을 활용할 수 있습니다. 중복 항목을 확인할 열 목록을 지정하면 해당 열의 모든 조합과 일치하는 행이 제거되도록 할 수 있습니다.

다음 예를 고려하세요.

    A   B   C
0   foo 0   A
1   foo 1   A
2   foo 1   B
3   bar 1   A

우리의 목표는 다음과 같습니다. 열 A와 C 모두에서 일치하는 행을 삭제합니다. 이렇게 하면 두 열에 동일한 값이 있는 행 0과 1이 제거됩니다.

사용 drop_duplicates의 경우 다음 코드를 사용하여 이 작업을 수행할 수 있습니다.

import pandas as pd

df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})
df.drop_duplicates(subset=['A', 'C'], keep=False)

하위 집합 매개변수는 중복 검색에 사용할 열을 지정합니다. Keep 매개변수를 False로 설정하면 모든 중복 행이 제거됩니다.

결과 DataFrame은 다음과 같습니다.

    A   B   C
0   foo 0   A
2   foo 1   B
3   bar 1   A

행 0과 1은 일치했기 때문에 삭제되었습니다. A와 C를 모두 사용하여 해당 열을 기반으로 DataFrame을 효과적으로 단일화합니다.

위 내용은 Pandas의 여러 열에서 중복 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.