집 >데이터 베이스 >MySQL 튜토리얼 >메모리 부족 없이 Pandas에서 대규모 SQL 쿼리를 처리하려면 어떻게 해야 합니까?
Pandas 및 대규모 SQL 쿼리: 메모리 효율적인 접근 방식
pandas.io.sql.read_frame()
을 사용하여 5백만 레코드를 초과하는 SQL 쿼리를 처리하면 메모리 오류가 발생할 수 있습니다. 그러나 Pandas는 이러한 대규모 데이터 세트를 처리하기 위한 강력한 솔루션을 제공합니다. 즉, 더 작고 관리 가능한 덩어리로 처리하는 것입니다.
pandas 버전 0.15부터 read_sql_query()
함수에는 chunksize
매개변수가 포함되어 있습니다. 이를 통해 쿼리 결과를 반복적으로 검색하여 메모리 소비를 크게 줄일 수 있습니다. 청크당 원하는 레코드 수를 지정하면 대규모 쿼리를 더 작고 관리하기 쉬운 조각으로 효과적으로 나눌 수 있습니다.
예를 들어 5,000개 레코드 청크로 쿼리를 처리하려면 다음을 수행하세요.
<code class="language-python">sql = "SELECT * FROM MyTable" for chunk in pd.read_sql_query(sql, engine, chunksize=5000): # Process each chunk here (e.g., calculations, analysis, etc.) print(chunk) </code>
이 반복적 접근 방식은 전체 데이터세트를 메모리에 동시에 로드하는 것을 방지합니다. 각 청크는 독립적으로 처리되어 메모리 공간을 최소화하고 매우 큰 데이터 세트가 있는 경우에도 pandas DataFrames 내에서 효율적인 데이터 조작을 가능하게 합니다. chunksize
매개변수는 상당한 SQL 쿼리를 효율적으로 처리하고 메모리 소모를 방지하는 데 핵심입니다.
위 내용은 메모리 부족 없이 Pandas에서 대규모 SQL 쿼리를 처리하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!