首页 >后端开发 >Python教程 >如何根据唯一标识符有效地将大型数据帧拆分为较小的子集?

如何根据唯一标识符有效地将大型数据帧拆分为较小的子集?

Barbara Streisand
Barbara Streisand原创
2024-12-19 05:42:17875浏览

How Can I Efficiently Split a Large DataFrame into Smaller Subsets Based on a Unique Identifier?

根据唯一标识符列将大型数据帧拆分为较小的子集

处理大型数据集时,将它们分为更小的、可管理的子集,以实现更高效的处理和分析。本文解决了将具有数百万行的大型数据帧拆分为多个数据帧的具体任务,每个数据帧对应分配给参与者的每个唯一代码。

提供的代码片段尝试使用 for 循环来迭代来拆分数据帧遍历每一行并检查参与者代码是否与当前分配的代码匹配。虽然这种方法在概念上是正确的,但其执行效率低下,并且可能导致大型数据集运行时间过长。

相反,可以通过数据操作技术实现更有效的解决方案。通过使用 unique() 函数来识别不同的代码,然后应用 filter() 方法来隔离与每个代码关联的行,我们可以无缝地创建单独的数据帧。

在下面的改进代码中,初始化了一个字典存储结果数据帧,每个唯一的代码充当字典键。 filter() 方法用于根据参与者代码提取行,并将生成的数据帧附加到字典中:

import pandas as pd
import numpy as np

# Create a dataframe with random data and a 'Names' column
data = pd.DataFrame({'Names': ['Joe', 'John', 'Jasper', 'Jez'] * 4, 'Ob1': np.random.rand(16), 'Ob2': np.random.rand(16)})

# Extract unique participant codes
participant_codes = data.Names.unique()

# Initialize a dictionary to store dataframes
participant_dataframes = {code: pd.DataFrame() for code in participant_codes}

# Iterate through unique codes and create dataframes for each participant
for code in participant_codes:
    participant_dataframes[code] = data[data.Names == code]

# Print dictionary keys to verify participant dataframes
print(participant_dataframes.keys())

通过利用数据操作技术而不是显式循环,此代码提供了更多基于唯一标识符列分割大型数据帧的高效且可扩展的解决方案。

以上是如何根据唯一标识符有效地将大型数据帧拆分为较小的子集?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn