要清理具有多个字符串列的数据,请按前两列分组并为第三列选择最常见的值在每个组合中。
提供的代码失败并显示KeyError,并且仅按 City 列分组会导致断言错误。需要一个强大的解决方案。
在 pandas v0.16 之后,pd.Series.mode 为该任务提供了一种多功能且高效的方法:
source.groupby(['Country', 'City'])['Short name'].agg(pd.Series.mode)
如果组内有多种模式,Series.mode 返回一个列表的价值观。对于单个结果,应用 lambda 函数:
source.groupby(['Country', 'City'])['Short name'].agg(lambda x: pd.Series.mode(x)[0])
也可以使用 scipy.stats.mode,但遇到多种模式时会引发错误。
以上是如何在分组后找到 Pandas DataFrame 中最常见的值?的详细内容。更多信息请关注PHP中文网其他相关文章!