具有多个字段的 Pandas 的分组差异
在这种情况下,我们的目标是计算不同地点和国家组合的分数差异
为了实现这一点,我们首先根据站点、国家/地区和日期对数据框进行排序:
<code class="python">df = df.sort_values(by=['site', 'country', 'date'])</code>
接下来,我们使用 groupby 和 diff 来计算每个站点内的差异和国家/地区组:
<code class="python">df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)</code>
这会在每个站点和国家/地区组内产生差异,并用 0 填充任何缺失值。
最后,我们显示结果:
<code class="python">print(df) Output: date site country score diff 8 2018-01-01 fb es 100 0.0 9 2018-01-02 fb gb 100 0.0 5 2018-01-01 fb us 50 0.0 6 2018-01-02 fb us 55 5.0 7 2018-01-03 fb us 100 45.0 1 2018-01-01 google ch 50 0.0 4 2018-01-02 google ch 10 -40.0 0 2018-01-01 google us 100 0.0 2 2018-01-02 google us 70 -30.0 3 2018-01-03 google us 60 -10.0</code>
请注意,不直接支持按任意顺序排序。对于这种情况,请考虑将订单存储在集合中并使列分类。这样,sort_values 将与提供的顺序对齐。
以上是如何计算具有多个字段的 Pandas 的分组差异?的详细内容。更多信息请关注PHP中文网其他相关文章!