大型 DataFrame 可能很難使用,尤其是在透過函數傳遞它們時。使用大型 DataFrame 時可能會出現記憶體錯誤,將它們切成較小的區塊可以幫助緩解此問題。
將 DataFrame 切成較小的區塊:
<code class="python">n = 200000 # chunk row size list_df = [df[i:i+n] for i in range(0, df.shape[0], n)]</code>
<code class="python">list_df = np.array_split(df, math.ceil(len(df)/n))</code>
要存取區塊,只需索引清單即可:
<code class="python">list_df[0] list_df[1] etc...</code>
透過AcctName 拆分DataFrame:
<code class="python">list_df = [] for n, g in df.groupby('AcctName'): list_df.append(g)</code>
拆分DataFrame後分成區塊,它可以透過函數傳遞,然後使用pd.concat 重新組裝成單一DataFrame。
以上是如何有效處理 Pandas 中的大型 DataFrame 以避免記憶體錯誤?的詳細內容。更多資訊請關注PHP中文網其他相關文章!