首頁 >後端開發 >Python教學 >參與者如何有效地將百萬行資料幀分割成更小的資料幀?

參與者如何有效地將百萬行資料幀分割成更小的資料幀?

Susan Sarandon
Susan Sarandon原創
2024-12-03 01:31:11315瀏覽

How to Efficiently Split a Million-Row DataFrame into Smaller DataFrames by Participant?

將 DataFrame 拆分為多個 DataFrame

處理海量資料集時,可能需要將它們拆分為更小的區塊以進行高效處理。這可以透過根據唯一識別碼劃分 DataFrame 來實現,從而產生多個較小的 DataFrame。在本例中,目標是將 100 萬行 DataFrame 劃分為 60 個較小的 DataFrame,每個資料框對應由「name」變數標識的每個參與者。

不幸的是,提供的用於拆分 DataFrame 的 Python 程式碼無法實現完成任務。建議使用一種替代方法,利用 Pandas 的切片和索引功能,而不是無限期地運行。以下是修改後的程式碼:

import pandas as pd

# Create a list of unique participant names
unique_names = data['name'].unique()

# Create a dictionary to store the DataFrames for each participant
participant_data = {name: pd.DataFrame() for name in unique_names}

# Populate the dictionary with sliced DataFrames for each participant
for name in unique_names:
    participant_data[name] = data[data['name'] == name]

此程式碼根據「名稱」欄位有效地對 DataFrame 進行切片,為每個參與者建立單獨的 DataFrame,同時避免了先前程式碼的陷阱。

以上是參與者如何有效地將百萬行資料幀分割成更小的資料幀?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn