>데이터 베이스 >MySQL 튜토리얼 >대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?

대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-13 08:56:44293검색

How Can I Avoid Memory Errors When Loading Large SQL Query Results into Pandas DataFrames?

대량 SQL 쿼리 결과를 Pandas DataFrames에 효율적으로 로드

광범위한 데이터세트를 처리하려면 SQL 데이터베이스에서 데이터를 검색하고 이를 Pandas DataFrames에 로드하는 작업이 포함되는 경우가 많습니다. 그러나 수백만 개의 레코드를 직접 로드하면 메모리 오류가 발생하기 쉽습니다.

일반적인 오류는 전체 데이터 세트를 메모리에 동시에 로드하려고 시도할 때 발생합니다. Pandas는 chunksize 함수 내의 read_sql_query 매개변수를 사용하여 솔루션을 제공합니다.

증분 데이터 로드를 위해 chunksize 활용:

chunksize 매개변수를 사용하면 SQL 쿼리 결과를 더 작고 관리 가능한 배치로 읽을 수 있으므로 메모리 부담이 크게 줄어듭니다.

<code class="language-python">import pandas as pd
pd.read_sql_query(sql, engine, chunksize=100000)</code>

chunksize을 지정하면 각 반복에서 읽는 행 수를 제어할 수 있습니다.

실제 예:

<code class="language-python">sql = "SELECT * FROM MyTable"
for chunk in pd.read_sql_query(sql, engine, chunksize=5):
    # Process each chunk individually
    print(chunk)</code>

이 코드는 쿼리 결과를 반복하여 각 chunk을 독립적으로 처리합니다. 이렇게 하면 데이터를 더 작고 소화 가능한 부분으로 처리하여 메모리 과부하를 방지할 수 있습니다.

추가 최적화 전략:

chunksize은 매우 효과적이지만 대규모 데이터세트에 대해서는 다음과 같은 추가 최적화를 고려하세요.

  • 인덱싱된 뷰: SQL 데이터베이스에 인덱싱된 뷰를 사용하면 쿼리 실행 속도를 대폭 높일 수 있습니다.
  • 최적화된 SQL 구문: 대규모 데이터 검색을 위해 설계된 데이터베이스별 구문을 활용합니다.
  • 대체 프레임워크: 매우 큰 데이터 세트의 경우 Dask 또는 Spark와 같은 분산 컴퓨팅 프레임워크를 살펴보세요.

그러나 많은 시나리오에서 chunksize 매개변수를 활용하면 Pandas에서 상당한 SQL 쿼리 결과로 작업할 때 메모리 관리에 대한 간단하고 강력한 솔루션을 제공합니다.

위 내용은 대규모 SQL 쿼리 결과를 Pandas DataFrame에 로드할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.