>  기사  >  백엔드 개발  >  메모리 오류를 방지하기 위해 Pandas에서 대규모 DataFrame을 어떻게 효과적으로 처리할 수 있나요?

메모리 오류를 방지하기 위해 Pandas에서 대규모 DataFrame을 어떻게 효과적으로 처리할 수 있나요?

Susan Sarandon
Susan Sarandon원래의
2024-10-26 01:24:28271검색

How can I effectively handle large DataFrames in Pandas to avoid memory errors?

Pandas - 큰 DataFrame을 청크로 분할

대형 DataFrame은 작업하기 어려울 수 있으며, 특히 함수를 통해 전달할 때 더욱 그렇습니다. 큰 DataFrame으로 작업할 때 메모리 오류가 발생할 수 있으며 이를 더 작은 청크로 분할하면 이 문제를 완화하는 데 도움이 될 수 있습니다.

DataFrame을 더 작은 청크로 분할하려면:

  1. 목록 이해 : List Comprehension을 활용하여 더 작은 DataFrame 목록을 만듭니다.
<code class="python">n = 200000  # chunk row size
list_df = [df[i:i+n] for i in range(0, df.shape[0], n)]</code>
  1. Numpy array_split: DataFrame을 분할하려면 numpy의 array_split 함수를 활용하세요.
<code class="python">list_df = np.array_split(df, math.ceil(len(df)/n))</code>

청크에 액세스하려면 간단히 목록을 인덱싱하세요.

<code class="python">list_df[0]
list_df[1]
etc...</code>

AcctName별로 DataFrame을 분할하면:

<code class="python">list_df = []

for n, g in df.groupby('AcctName'):
    list_df.append(g)</code>

DataFrame이 분할되면 함수를 통해 전달된 다음 pd.concat을 사용하여 단일 DataFrame으로 재조립될 수 있습니다.

위 내용은 메모리 오류를 방지하기 위해 Pandas에서 대규모 DataFrame을 어떻게 효과적으로 처리할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.