집 >백엔드 개발 >파이썬 튜토리얼 >값 범위와 식별자를 기반으로 Pandas 데이터프레임을 효율적으로 병합하는 방법은 무엇입니까?

값 범위와 식별자를 기반으로 Pandas 데이터프레임을 효율적으로 병합하는 방법은 무엇입니까?

Linda Hamilton원래의: 2024-10-30 11:54:02324검색

How to Efficiently Merge Pandas Dataframes Based on Value Range and Identifier?

값 범위와 식별자를 기반으로 Pandas 데이터프레임 병합

Pandas에서는 범위 기반 조건과 식별자를 사용하여 데이터프레임을 병합할 수 있습니다. 병합 및 필터링 작업의 조합을 통해. 그러나 이 접근 방식은 대규모 데이터 세트로 작업할 때 비효율적일 수 있습니다. SQL을 활용하는 대체 접근 방식은 더 나은 성능을 제공할 수 있습니다.

두 개의 데이터 프레임 A와 B가 있는 예를 생각해 보겠습니다. 데이터 프레임 A에는 날짜(fdate)와 식별자(cusip)가 포함되어 있고 데이터 프레임 B에는 날짜(namedt 및 nameenddt) 및 동일한 식별자(ncusip). 우리의 목표는 A의 fdate가 B의namedt 및 nameenddt에 의해 정의된 날짜 범위 내에 속하는 이러한 데이터 프레임을 병합하는 것입니다.

다음 Python 코드는 기존 Pandas 접근 방식을 보여줍니다.

<code class="python">df = pd.merge(A, B, how='inner', left_on='cusip', right_on='ncusip')
df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]</code>

이 접근 방식은 작동하지만 무조건 데이터 프레임을 병합한 다음 날짜 조건에 따라 필터링하므로 대규모 데이터 세트의 경우 계산 비용이 많이 들 수 있습니다.

대체 접근 방식은 SQL 쿼리를 사용하는 것입니다.

<code class="python">import pandas as pd
import sqlite3

# Create a temporary database in memory
conn = sqlite3.connect(':memory:')

# Write the dataframes to tables
A.to_sql('table_a', conn, index=False)
B.to_sql('table_b', conn, index=False)

# Construct the SQL query
query = '''
    SELECT *
    FROM table_a
    JOIN table_b ON table_a.cusip = table_b.ncusip
    WHERE table_a.fdate BETWEEN table_b.namedt AND table_b.nameenddt
'''

# Execute the query and create a Pandas dataframe
df = pd.read_sql_query(query, conn)</code>

이 접근 방식에는 여러 가지 장점이 있습니다.

더 빠른 실행: SQL은 데이터 처리에 최적화되어 범위 기반 필터링에 더 효율적입니다.
중간 데이터 방지: 대규모 중간 데이터 프레임을 생성하지 않고 필터링된 데이터를 직접 추출합니다.
단순성: 쿼리가 간결하고 이해하기 쉽습니다.

결론적으로 범위 기반 조건 및 식별자를 기반으로 데이터 프레임을 병합하기 위해 SQL을 활용하면 특히 대규모 데이터 세트의 경우 기존 Pandas 작업에 비해 성능 이점을 얻을 수 있습니다.

위 내용은 값 범위와 식별자를 기반으로 Pandas 데이터프레임을 효율적으로 병합하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python sql pandas for while date using this

성명：

이전 기사：Python 목록(반복, 세트 또는 all())에서 여러 값의 멤버십을 효율적으로 테스트하는 방법은 무엇입니까?다음 기사：Python 목록(반복, 세트 또는 all())에서 여러 값의 멤버십을 효율적으로 테스트하는 방법은 무엇입니까?