>데이터 베이스 >MySQL 튜토리얼 >데이터베이스에서 Large Pandas DataFrame을 생성할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?

데이터베이스에서 Large Pandas DataFrame을 생성할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?

Barbara Streisand
Barbara Streisand원래의
2025-01-13 09:31:12309검색

How Can I Avoid Memory Errors When Creating Large Pandas DataFrames from Databases?

대규모 데이터베이스 및 Pandas DataFrame 작업 시 메모리 관리

대규모 데이터베이스를 처리하고 Pandas DataFrames에 직접 로드하면 메모리 오류가 발생하는 경우가 많습니다. 더 작은 쿼리가 작동할 수도 있지만 시스템 메모리 용량을 초과하면 문제가 발생합니다. 다행히 Pandas는 이러한 데이터 세트를 처리하기 위한 효율적인 솔루션을 제공합니다.

청크 크기 반복자 방법

대용량 CSV 파일을 처리하는 것과 유사하게 Pandas의 read_sql 기능은 iteratorchunksize 매개변수를 제공합니다. iterator=True을 설정하고 chunksize을 지정하면 관리 가능한 부분에서 데이터베이스 쿼리를 처리할 수 있습니다.

코드 예:

<code class="language-python">import pandas as pd

sql = "SELECT * FROM MyTable"
chunksize = 10000  # Adjust as needed

for chunk in pd.read_sql_query(sql, engine, chunksize=chunksize):
    # Process each chunk individually</code>

이 반복적 접근 방식은 데이터를 더 작고 제어된 증분으로 처리하여 메모리 과부하를 방지합니다.

초대형 데이터 세트 처리를 위한 추가 전략

청크 크기 방법이 충분하지 않은 경우 다음 대안을 고려하세요.

  • 직접 SQL 쿼리: 데이터베이스 드라이버를 사용하여 쿼리를 실행하고 데이터베이스에서 직접 더 작은 배치의 데이터를 검색합니다.
  • 일괄 쿼리: 전체 쿼리를 여러 개의 더 작은 대상 쿼리로 나누고 결과를 일괄 처리합니다.
  • 외부 파일 저장소: 데이터를 CSV와 같은 파일 형식으로 청크로 쿼리한 다음 필요에 따라 해당 파일을 Pandas에 로드합니다. 이렇게 하면 전체 데이터 세트를 한 번에 메모리에 유지하는 것을 방지할 수 있습니다.

위 내용은 데이터베이스에서 Large Pandas DataFrame을 생성할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.