Python Pandas의 여러 열에서 중복 항목 제거
Pandas의 drop_duplicates 함수는 지정된 열을 기반으로 중복 행을 제거하는 편리한 방법을 제공합니다. 그러나 단일 열이 아닌 여러 열의 하위 집합에서 중복 항목을 삭제하려면 어떻게 해야 할까요?
이를 달성하기 위해 하위 집합 매개변수와 함께 drop_duplicates의 기능을 활용할 수 있습니다. 중복 항목을 확인할 열 목록을 지정하면 해당 열의 모든 조합과 일치하는 행이 제거되도록 할 수 있습니다.
다음 예를 고려하세요.
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
우리의 목표는 다음과 같습니다. 열 A와 C 모두에서 일치하는 행을 삭제합니다. 이렇게 하면 두 열에 동일한 값이 있는 행 0과 1이 제거됩니다.
사용 drop_duplicates의 경우 다음 코드를 사용하여 이 작업을 수행할 수 있습니다.
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
하위 집합 매개변수는 중복 검색에 사용할 열을 지정합니다. Keep 매개변수를 False로 설정하면 모든 중복 행이 제거됩니다.
결과 DataFrame은 다음과 같습니다.
A B C 0 foo 0 A 2 foo 1 B 3 bar 1 A
행 0과 1은 일치했기 때문에 삭제되었습니다. A와 C를 모두 사용하여 해당 열을 기반으로 DataFrame을 효과적으로 단일화합니다.
위 내용은 Pandas의 여러 열에서 중복 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!