首页 >后端开发 >Python教程 >如何有效地将多个函数应用于 Pandas 中的分组 DataFrame 列?

如何有效地将多个函数应用于 Pandas 中的分组 DataFrame 列?

DDD
DDD原创
2024-12-16 15:47:14357浏览

How Can I Efficiently Apply Multiple Functions to Grouped DataFrame Columns in Pandas?

高效地将多个函数应用于分组列

与 Series groupby 对象不同,使用字典将多个函数应用于 DataFrame groupby 对象并不简单。但是,有一些有效的方法可以使用以下方法来实现此目的:

使用 apply 方法

如果所需的函数在各个列上运行,则利用 apply 方法是一个合适的选择。 apply 方法允许传递将整个组(DataFrame)转换为另一个对象的函数。例如:

grouped = df.groupby('group')
aggregated = grouped.apply(lambda x: pd.Series({
    'a_sum': x['a'].sum(),
    'a_max': x['a'].max(),
    'b_mean': x['b'].mean(),
}))

此方法有效地聚合多个列并返回具有所需列的 DataFrame。

从 apply 返回一个系列

当处理需要交互的多个列时,不能使用 agg 方法,因为它隐式地将 Series 传递给聚合函数。相反,可以创建一个返回 Series 的自定义函数。例如:

def aggregate_group(x):
    return pd.Series({
        'a_sum': x['a'].sum(),
        'b_mean': x['b'].mean(),
        'c_d_prod': (x['c'] * x['d']).sum()
    })

grouped = df.groupby('group')
result = grouped.apply(aggregate_group)

此方法允许将多个函数应用于多个分组列并在一个步骤中返回结果。

自定义函数名称

如果需要,可以使用 __name__ 属性为函数分配自定义名称。只需在定义函数后将 __name__ 设置为所需的名称,这将提高生成列的清晰度。

值得注意的是,与上述方法相比,使用循环迭代 groupby 对象通常效率较低。 Pandas 针对矢量化操作进行了优化,使这些内置方法成为高效组级分析的首选方法。

以上是如何有效地将多个函数应用于 Pandas 中的分组 DataFrame 列?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn