首页 >后端开发 >Python教程 >参与者如何有效地将百万行数据帧分割成更小的数据帧?

参与者如何有效地将百万行数据帧分割成更小的数据帧?

Susan Sarandon
Susan Sarandon原创
2024-12-03 01:31:11345浏览

How to Efficiently Split a Million-Row DataFrame into Smaller DataFrames by Participant?

将 DataFrame 拆分为多个 DataFrame

处理海量数据集时,可能需要将它们拆分为更小的块以进行高效处理。这可以通过根据唯一标识符划分 DataFrame 来实现,从而产生多个较小的 DataFrame。在本例中,目标是将 100 万行 DataFrame 划分为 60 个较小的 DataFrame,每个数据框对应由“name”变量标识的每个参与者。

不幸的是,提供的用于拆分 DataFrame 的 Python 代码无法实现完成任务。建议使用一种替代方法,利用 Pandas 的切片和索引功能,而不是无限期地运行。下面是修改后的代码:

import pandas as pd

# Create a list of unique participant names
unique_names = data['name'].unique()

# Create a dictionary to store the DataFrames for each participant
participant_data = {name: pd.DataFrame() for name in unique_names}

# Populate the dictionary with sliced DataFrames for each participant
for name in unique_names:
    participant_data[name] = data[data['name'] == name]

此代码根据“名称”列有效地对 DataFrame 进行切片,为每个参与者创建单独的 DataFrame,同时避免了先前代码的陷阱。

以上是参与者如何有效地将百万行数据帧分割成更小的数据帧?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn