집 >데이터 베이스 >MySQL 튜토리얼 >데이터베이스에서 Large Pandas DataFrame을 생성할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?
대규모 데이터베이스 및 Pandas DataFrame 작업 시 메모리 관리
대규모 데이터베이스를 처리하고 Pandas DataFrames에 직접 로드하면 메모리 오류가 발생하는 경우가 많습니다. 더 작은 쿼리가 작동할 수도 있지만 시스템 메모리 용량을 초과하면 문제가 발생합니다. 다행히 Pandas는 이러한 데이터 세트를 처리하기 위한 효율적인 솔루션을 제공합니다.
청크 크기 반복자 방법
대용량 CSV 파일을 처리하는 것과 유사하게 Pandas의 read_sql
기능은 iterator
및 chunksize
매개변수를 제공합니다. iterator=True
을 설정하고 chunksize
을 지정하면 관리 가능한 부분에서 데이터베이스 쿼리를 처리할 수 있습니다.
코드 예:
<code class="language-python">import pandas as pd sql = "SELECT * FROM MyTable" chunksize = 10000 # Adjust as needed for chunk in pd.read_sql_query(sql, engine, chunksize=chunksize): # Process each chunk individually</code>
이 반복적 접근 방식은 데이터를 더 작고 제어된 증분으로 처리하여 메모리 과부하를 방지합니다.
초대형 데이터 세트 처리를 위한 추가 전략
청크 크기 방법이 충분하지 않은 경우 다음 대안을 고려하세요.
위 내용은 데이터베이스에서 Large Pandas DataFrame을 생성할 때 메모리 오류를 방지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!