데이터 분석 작업을 수행할 때 여러 소스의 데이터를 단일 데이터 프레임으로 결합해야 하는 경우가 많습니다. . Pandas는 데이터 프레임 조인을 수행하기 위한 여러 가지 방법을 제공하며, 그 중 하나는 공통 열을 기반으로 데이터 프레임을 결합할 수 있는 merge()입니다.
두 개의 데이터 프레임이 있다고 가정합니다.
restaurant_ids_dataframe:
Column Name | Data Type |
---|---|
business_id | int |
categories | object |
city | object |
full_address | object |
latitude | float |
longitude | float |
name | object |
neighborhoods | object |
open | bool |
review_count | int |
stars | float |
state | object |
type | object |
restaurant_review_frame:
Column Name | Data Type |
---|---|
business_id | int |
date | object |
review_id | int |
stars | float |
text | object |
type | object |
user_id | int |
votes | int |
목표는 DataFrame.join을 사용하여 이러한 데이터 프레임을 단일 데이터 프레임으로 결합하는 것입니다. () 방법. 일반적으로 공통 열인 business_id에서 조인이 수행될 것으로 예상합니다. 그러나 다음 코드 줄을 시도하면
restaurant_review_frame.join(other=restaurant_ids_dataframe, on='business_id', how='left')
오류가 발생합니다.
Exception: columns overlap: Index([business_id, stars, type], dtype=object)
이 문제를 해결하려면 대신 merge() 메소드를 활용하여 on 매개변수의 공통 열입니다. merge() 메서드는 겹치는 열을 처리하고 그에 따라 데이터 프레임을 결합하도록 설계되었습니다. 구문은 다음과 같습니다.
<code class="python">import pandas as pd pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>
여기서 How 매개변수는 수행할 조인 유형을 정의합니다. 이 경우에는 두 데이터 프레임의 모든 행을 결합하여 완전 외부 조인을 수행하는 외부를 사용했습니다.
또한 suffixes 매개변수를 사용하여 병합된 열의 접미사를 지정할 수 있으므로 사용자 정의가 가능합니다. 결과 데이터 프레임의 열 이름. 예를 들어 열의 접미사를 star_restaurant_id 및 star_restaurant_review로 지정하려면 다음을 사용할 수 있습니다.
<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>
merge() 메서드는 조인 작업에 대한 세밀한 제어를 제공하는 포괄적인 매개 변수 집합을 제공하여 효율적이고 정확한 데이터 프레임 조합.
위 내용은 Pandas 데이터 프레임을 'join()'과 결합하는 동안 열 겹침 오류를 해결하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!