在 Pandas 中,您可以执行多级分组和聚合来计算复杂的统计数据。一项常见任务是计算由多个其他列定义的组内的一列的平均值。
考虑以下 DataFrame:
cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6
计算每个集群中每个组织的平均时间,您可以按集群和组织对 DataFrame 进行分组:
df.groupby(['cluster', 'org'], as_index=False).mean()
这将生成按集群和组织分组的 DataFrame,其中为每个组计算的平均时间:
cluster org time 0 1 a 12.333333 1 1 c 23.0 2 2 h 34.0 3 2 d 74.0 4 3 w 6.0
如果您只想要每个集群内的时间平均值,则可以仅按集群分组:
df.groupby('cluster').mean()
这将生成一个 DataFrame计算每个簇的平均时间:
cluster time 0 1 12.333333 1 2 54.0 2 3 6.0
或者,您可以对多列组合使用 groupby 方法['cluster', 'org'],然后计算时间平均值:
df.groupby(['cluster', 'org']).mean()['time']
这将生成一个系列,其中为集群和组织的每个组合计算平均时间。
以上是如何计算熊猫多个组内的平均值?的详细内容。更多信息请关注PHP中文网其他相关文章!