首页 >后端开发 >Python教程 >如何在分组后找到 Pandas DataFrame 中最常见的值?

如何在分组后找到 Pandas DataFrame 中最常见的值?

Patricia Arquette
Patricia Arquette原创
2024-12-02 01:58:09128浏览

How to Find the Most Common Value in a Pandas DataFrame After Grouping?

按 pandas DataFrame 分组并选择最常见的值

要清理具有多个字符串列的数据,请按前两列分组并为第三列选择最常见的值在每个组合中。

问题

提供的代码失败并显示KeyError,并且仅按 City 列分组会导致断言错误。需要一个强大的解决方案。

解决方案

在 pandas v0.16 之后,pd.Series.mode 为该任务提供了一种多功能且高效的方法:

source.groupby(['Country', 'City'])['Short name'].agg(pd.Series.mode)

解决多种模式

如果组内有多种模式,Series.mode 返回一个列表的价值观。对于单个结果,应用 lambda 函数:

source.groupby(['Country', 'City'])['Short name'].agg(lambda x: pd.Series.mode(x)[0])

考虑的替代方案

也可以使用 scipy.stats.mode,但遇到多种模式时会引发错误。

以上是如何在分组后找到 Pandas DataFrame 中最常见的值?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn