處理海量資料集時,可能需要將它們拆分為更小的區塊以進行高效處理。這可以透過根據唯一識別碼劃分 DataFrame 來實現,從而產生多個較小的 DataFrame。在本例中,目標是將 100 萬行 DataFrame 劃分為 60 個較小的 DataFrame,每個資料框對應由「name」變數標識的每個參與者。
不幸的是,提供的用於拆分 DataFrame 的 Python 程式碼無法實現完成任務。建議使用一種替代方法,利用 Pandas 的切片和索引功能,而不是無限期地運行。以下是修改後的程式碼:
import pandas as pd # Create a list of unique participant names unique_names = data['name'].unique() # Create a dictionary to store the DataFrames for each participant participant_data = {name: pd.DataFrame() for name in unique_names} # Populate the dictionary with sliced DataFrames for each participant for name in unique_names: participant_data[name] = data[data['name'] == name]
此程式碼根據「名稱」欄位有效地對 DataFrame 進行切片,為每個參與者建立單獨的 DataFrame,同時避免了先前程式碼的陷阱。
以上是參與者如何有效地將百萬行資料幀分割成更小的資料幀?的詳細內容。更多資訊請關注PHP中文網其他相關文章!