>백엔드 개발 >파이썬 튜토리얼 >df2에는 있지만 df1에는 없는 행을 식별하는 방법은 무엇입니까?

df2에는 있지만 df1에는 없는 행을 식별하는 방법은 무엇입니까?

Barbara Streisand
Barbara Streisand원래의
2024-10-19 21:08:29463검색

How to Identify Rows Present in df2 But Absent in df1?

두 DataFrame의 차이점

차이점을 식별하기 위해 DataFrame을 비교하는 것은 데이터 분석에 필수적입니다. 이 문제에서는 df1과 df2라는 두 개의 데이터 프레임이 주어지며 df2에는 있지만 df1에는 없는 행을 찾아야 합니다.

부울 행렬과 비교

!=와 같은 연산자를 사용하여 직접 비교 데이터프레임의 구조가 다르면 오류가 발생할 수 있습니다. 더 나은 접근 방식은 데이터 프레임을 연결하고 해당 인덱스를 재설정한 다음 비교하는 것입니다. df1 == df2를 사용하면 True는 두 데이터프레임 모두에 행이 있음을 나타내고 False는 차이점을 나타내는 부울 행렬이 생성됩니다.

고유 값으로 그룹화

다음으로 그룹화 작업을 수행할 수 있습니다. 연결된 데이터프레임에서 고유한 행을 식별합니다. 목표는 데이터프레임에서 한 번만 발생하는 행을 찾는 것입니다. 그룹의 길이를 확인하여 이를 달성할 수 있습니다. 길이가 1인 행은 고유한 레코드를 나타냅니다.

데이터프레임 필터링

마지막으로 식별된 고유 행 인덱스를 사용하여 데이터프레임을 필터링할 수 있습니다. 이는 df1에 없는 df2의 행을 제공합니다.

예를 들어, 제공된 예제 데이터 프레임을 고려하면:

<code class="python">import pandas as pd

df1 = ...
df2 = ...

# Concatenate dataframes
df = pd.concat([df1, df2])
df = df.reset_index(drop=True)

# Group by unique values
df_gpby = df.groupby(list(df.columns))

# Get unique row indices
idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]

# Filter dataframe
result = df.reindex(idx)</code>

결과 데이터 프레임 df1에는 없는 df2의 행이 포함됩니다.

위 내용은 df2에는 있지만 df1에는 없는 행을 식별하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.