首页 >后端开发 >Python教程 >如何高效获取 Pandas DataFrame 每组中的前 N ​​条记录?

如何高效获取 Pandas DataFrame 每组中的前 N ​​条记录?

Linda Hamilton
Linda Hamilton原创
2024-11-25 03:16:14618浏览

How to Efficiently Get the Top N Records within Each Group of a Pandas DataFrame?

获取 DataFrame 中每个组的前 n 条记录

要获取 DataFrame 中每个组的前 n 条记录,请考虑使用 Pandas 的有效的方法。假设我们有以下包含“id”和“value”列的 DataFrame:

df = pd.DataFrame({'id': [1, 1, 1, 2, 2, 2, 2, 3, 4], 'value': [1, 2, 3, 1, 2, 3, 4, 1, 1]})

使用 groupby() 和 head() 函数,我们可以检索每个“id”的前 2 条记录:

df_top2 = df.groupby('id').head(2)

输出:

       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

为了展平 MultiIndex 并消除重复的行索引, apply reset_index():

df_top2 = df.groupby('id').head(2).reset_index(drop=True)

结果:

    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

或者,如果在为每组选择前 n 之前需要对记录进行排序,请先应用排序:

df_sorted = df.sort_values('value', ascending=False)
df_top2 = df_sorted.groupby('id').head(2)

这提供了一种更高效、更优雅的方法来获取 DataFrame 中每个组中的顶级记录。

以上是如何高效获取 Pandas DataFrame 每组中的前 N ​​条记录?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn