>백엔드 개발 >파이썬 튜토리얼 >Large Pandas DataFrame을 동일하지 않은 섹션으로 효율적으로 분할하는 방법은 무엇입니까?

Large Pandas DataFrame을 동일하지 않은 섹션으로 효율적으로 분할하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-26 22:24:29332검색

How to Efficiently Split Large Pandas DataFrames into Non-Equal Sections?

대형 Pandas 데이터 프레임 분할

Pandas에서 대규모 데이터 세트로 작업할 때 처리 또는 처리를 위해 데이터 프레임을 더 작은 청크로 분할해야 하는 경우가 많습니다. 분포. 하지만 np.split을 직접 사용하면 배열을 균등하게 나눌 수 없는 경우 오류가 발생할 수 있습니다.

np.array_split 사용

np.array_split 함수는 더 많은 기능을 제공합니다. 데이터 프레임을 포함한 배열을 섹션으로 분할하는 유연한 접근 방식입니다. np.split과 달리 섹션 수를 축을 균등하게 나누지 않는 정수로 허용합니다.

423244개 행을 포함하는 데이터 프레임을 4개 그룹으로 분할하려는 다음 예를 고려해보세요.

<code class="python">In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'three'],
    'C': np.array([rand() for i in range(4)]),
    'D': np.array([rand() for i in range(4)])
})

In [3]:
print(df)</code>

np.array_split을 사용하여 데이터 프레임을 4개의 그룹으로 분할하려면 다음을 수행할 수 있습니다.

<code class="python">In [4]:
import numpy as np

In [5]:
sections = np.array_split(df, 4)</code>

이제 섹션 변수에는 각각 약 105811개의 행을 포함하는 4개의 데이터 프레임 목록이 포함됩니다.

대규모 데이터프레임을 처리할 때는 다양한 분할 방법의 계산 비용과 메모리 요구 사항을 고려하는 것이 중요합니다. np.array_split은 배열을 같지 않은 섹션으로 나누기 위한 다양하고 효율적인 솔루션을 제공합니다.

위 내용은 Large Pandas DataFrame을 동일하지 않은 섹션으로 효율적으로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.