Maison >développement back-end >Tutoriel Python >Comment obtenir efficacement les N meilleurs enregistrements au sein de chaque groupe Pandas ?

Comment obtenir efficacement les N meilleurs enregistrements au sein de chaque groupe Pandas ?

Patricia Arquette
Patricia Arquetteoriginal
2024-12-02 19:27:14973parcourir

How to Efficiently Get the Top N Records within Each Pandas Group?

Obtenir les enregistrements les plus élevés au sein d'un groupe Pandas

Dans l'ensemble de données suivant :

df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4], 'value':[1,2,3,1,2,3,4,1,1]})

nous souhaitons obtenir le deux premiers enregistrements pour chaque identifiant. Une approche simple consiste à attribuer des numéros de ligne au sein de chaque groupe à l'aide de la méthode groupby :

dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()

Cependant, une solution plus efficace est fournie par la fonction head :

df.groupby('id').head(2)

Cette opération produit :

       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

Pour supprimer le MultiIndex et aplatir les résultats, utilisez :

df.groupby('id').head(2).reset_index(drop=True)

Cela donne le résultat souhaité :

    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

Ainsi, la fonction head fournit une approche concise et optimisée pour récupérer les enregistrements les plus élevés au sein de chaque groupe Pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn