대형 Pandas 데이터 프레임 분할
Pandas에서 대규모 데이터 세트로 작업할 때 처리 또는 처리를 위해 데이터 프레임을 더 작은 청크로 분할해야 하는 경우가 많습니다. 분포. 하지만 np.split을 직접 사용하면 배열을 균등하게 나눌 수 없는 경우 오류가 발생할 수 있습니다.
np.array_split 사용
np.array_split 함수는 더 많은 기능을 제공합니다. 데이터 프레임을 포함한 배열을 섹션으로 분할하는 유연한 접근 방식입니다. np.split과 달리 섹션 수를 축을 균등하게 나누지 않는 정수로 허용합니다.
423244개 행을 포함하는 데이터 프레임을 4개 그룹으로 분할하려는 다음 예를 고려해보세요.
<code class="python">In [1]: import pandas as pd In [2]: df = pd.DataFrame({ 'A': ['foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'three'], 'C': np.array([rand() for i in range(4)]), 'D': np.array([rand() for i in range(4)]) }) In [3]: print(df)</code>
np.array_split을 사용하여 데이터 프레임을 4개의 그룹으로 분할하려면 다음을 수행할 수 있습니다.
<code class="python">In [4]: import numpy as np In [5]: sections = np.array_split(df, 4)</code>
이제 섹션 변수에는 각각 약 105811개의 행을 포함하는 4개의 데이터 프레임 목록이 포함됩니다.
대규모 데이터프레임을 처리할 때는 다양한 분할 방법의 계산 비용과 메모리 요구 사항을 고려하는 것이 중요합니다. np.array_split은 배열을 같지 않은 섹션으로 나누기 위한 다양하고 효율적인 솔루션을 제공합니다.
위 내용은 Large Pandas DataFrame을 동일하지 않은 섹션으로 효율적으로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!