>백엔드 개발 >파이썬 튜토리얼 >하나의 Pandas DataFrame에는 있지만 다른 행에는 없는 행을 식별하는 방법은 무엇입니까?

하나의 Pandas DataFrame에는 있지만 다른 행에는 없는 행을 식별하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2025-01-03 10:45:44348검색

How to Identify Rows Present in One Pandas DataFrame but Not Another?

Pandas DataFrames에서 일반적이지 않은 행 식별

여러 데이터 프레임으로 작업할 때 한 데이터 프레임에는 존재하지만 다른 프레임에는 존재하지 않는 행을 식별해야 합니다. df1과 df2라는 두 개의 데이터 프레임이 있다고 가정합니다. 여기서 df2는 df1의 하위 집합입니다.

df2에 없는 행을 df1에서 어떻게 추출할 수 있나요?

다음 예를 고려하세요.

import pandas as pd

df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5, 3], 'col2': [10, 11, 12, 13, 14, 10]})
df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]})

print("df1:")
print(df1)

print("\ndf2:")
print(df2)

출력:

   col1  col2
0     1    10
1     2    11
2     3    12
3     4    13
4     5    14
5     3    10

   col1  col2
0     1    10
1     2    11
2     3    12

우리의 목표는 df1에 없는 행을 df1에서 찾는 것입니다. df2.

해결책:

일반적이지 않은 행을 정확하게 식별하려면 col1 및 col2 열 모두에서 df1과 df2 사이에 왼쪽 조인을 수행하여 중복이 발생하는지 확인해야 합니다. df2에서는 제거됩니다. 또한 표시기=True를 지정하여 병합된 각 행의 소스를 나타내는 추가 열을 생성합니다.

결과 데이터 프레임 df_all에는 df1 및 df2의 모든 행과 함께 병합 여부를 나타내는 추가 열 _merge가 포함됩니다. 행은 두 데이터 프레임(모두), df1(left_only) 또는 df2에서만 발생합니다. (right_only).

df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True)

이제 부울 조건 df_all['_merge'] == 'left_only'를 사용하여 df_all을 필터링하여 df1에서 일반적이지 않은 행을 추출할 수 있습니다.

df_uncommon = df_all[df_all['_merge'] == 'left_only']
print("\nUncommon rows in df1:")
print(df_uncommon)

이렇게 하면 원하는 출력이 반환됩니다.

   col1  col2 _merge
3     4    13  left_only
4     5    14  left_only
5     3    10  left_only

왼쪽 조인을 활용하여 중복 제거 및 _merge 열을 사용하면 df2에 없는 행을 df1에서 효과적으로 식별하고 추출할 수 있습니다.

위 내용은 하나의 Pandas DataFrame에는 있지만 다른 행에는 없는 행을 식별하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.