여러 데이터 프레임으로 작업할 때 한 데이터 프레임에는 존재하지만 다른 프레임에는 존재하지 않는 행을 식별해야 합니다. df1과 df2라는 두 개의 데이터 프레임이 있다고 가정합니다. 여기서 df2는 df1의 하위 집합입니다.
df2에 없는 행을 df1에서 어떻게 추출할 수 있나요?
다음 예를 고려하세요.
import pandas as pd df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5, 3], 'col2': [10, 11, 12, 13, 14, 10]}) df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]}) print("df1:") print(df1) print("\ndf2:") print(df2)
출력:
col1 col2 0 1 10 1 2 11 2 3 12 3 4 13 4 5 14 5 3 10 col1 col2 0 1 10 1 2 11 2 3 12
우리의 목표는 df1에 없는 행을 df1에서 찾는 것입니다. df2.
해결책:
일반적이지 않은 행을 정확하게 식별하려면 col1 및 col2 열 모두에서 df1과 df2 사이에 왼쪽 조인을 수행하여 중복이 발생하는지 확인해야 합니다. df2에서는 제거됩니다. 또한 표시기=True를 지정하여 병합된 각 행의 소스를 나타내는 추가 열을 생성합니다.
결과 데이터 프레임 df_all에는 df1 및 df2의 모든 행과 함께 병합 여부를 나타내는 추가 열 _merge가 포함됩니다. 행은 두 데이터 프레임(모두), df1(left_only) 또는 df2에서만 발생합니다. (right_only).
df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True)
이제 부울 조건 df_all['_merge'] == 'left_only'를 사용하여 df_all을 필터링하여 df1에서 일반적이지 않은 행을 추출할 수 있습니다.
df_uncommon = df_all[df_all['_merge'] == 'left_only'] print("\nUncommon rows in df1:") print(df_uncommon)
이렇게 하면 원하는 출력이 반환됩니다.
col1 col2 _merge 3 4 13 left_only 4 5 14 left_only 5 3 10 left_only
왼쪽 조인을 활용하여 중복 제거 및 _merge 열을 사용하면 df2에 없는 행을 df1에서 효과적으로 식별하고 추출할 수 있습니다.
위 내용은 하나의 Pandas DataFrame에는 있지만 다른 행에는 없는 행을 식별하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!