>데이터 베이스 >MySQL 튜토리얼 >메모리 부족 없이 Pandas DataFrames로 대규모 SQL 쿼리를 어떻게 읽을 수 있나요?

메모리 부족 없이 Pandas DataFrames로 대규모 SQL 쿼리를 어떻게 읽을 수 있나요?

Susan Sarandon
Susan Sarandon원래의
2025-01-13 09:14:44929검색

How Can I Read Large SQL Queries into Pandas DataFrames Without Running Out of Memory?

대규모 SQL 쿼리를 Pandas DataFrame으로 가져올 때 메모리 오류 방지

대량 SQL 데이터베이스로 작업하면 대규모 데이터 세트를 검색할 때 종종 문제가 발생합니다. 백만 행을 초과하는 전체 테이블을 Pandas DataFrame에 직접 로드하려고 하면 쉽게 메모리 오류가 발생할 수 있습니다. 다음 코드는 이 문제를 보여줍니다.

<code class="language-python">import pandas.io.sql as psql
sql = "SELECT TOP 2000000 * FROM MyTable" 
data = psql.read_frame(sql, cnxn)</code>

이 방법은 실패하기 쉬우며 결과 DataFrame이 사용 가능한 RAM을 초과하는 경우 "MemoryError"가 발생합니다.

Pandas는 버전 0.15부터 강력한 솔루션인 chunksize 매개변수를 제공합니다. 이를 통해 SQL 쿼리를 더 작고 관리 가능한 부분으로 읽고 처리할 수 있습니다.

이 솔루션을 구현하는 방법은 다음과 같습니다.

<code class="language-python">sql = "SELECT * FROM My_Table"
for chunk in pd.read_sql_query(sql , engine, chunksize=5):
    print(chunk)</code>

chunksize을 지정하면 Pandas가 데이터를 증분 방식으로 검색합니다. 각 청크는 개별적으로 처리되어 메모리 과부하를 방지합니다. 위의 예는 각 청크를 인쇄합니다. 필요에 따라 각 청크에 다른 작업을 수행하도록 이를 조정할 수 있습니다.

이 기술은 대규모 SQL 쿼리를 처리할 수 있는 실용적이고 메모리 효율적인 방법을 제공하여 상당한 데이터 세트가 있는 경우에도 원활한 데이터 처리를 보장합니다.

위 내용은 메모리 부족 없이 Pandas DataFrames로 대규모 SQL 쿼리를 어떻게 읽을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.