Maison >développement back-end >Tutoriel Python >Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Barbara Streisand
Barbara Streisandoriginal
2024-10-27 09:09:03749parcourir

How can I maintain other columns in a Pandas DataFrame during a groupby operation?

Maintenir d'autres colonnes pendant les opérations Groupby

Lors de l'exécution d'une opération groupby sur une trame de données pandas, il est souvent nécessaire de conserver les colonnes qui ne le sont pas impliqués dans le processus de regroupement ou d’agrégation. Par défaut, ces autres colonnes sont supprimées une fois l'opération terminée. Cela peut être problématique si les colonnes conservées contiennent des informations précieuses.

Considérez le bloc de données suivant :

    item    diff   otherstuff
   0   1       2            1
   1   1       1            2
   2   1       3            7
   3   2      -1            0
   4   2       1            3
   5   2       4            9
   6   2      -6            2
   7   3       0            0
   8   3       2            9

Si nous devions regrouper le bloc de données par la colonne "élément" et trouver le valeur minimale de la colonne "diff", le bloc de données résultant ressemblerait à ceci :

    item   diff
   0   1      1           
   1   2     -6           
   2   3      0                 

Remarquez que la colonne "otherstuff" a été supprimée. Pour conserver cette colonne, on peut utiliser la méthode idxmin() pour obtenir les indices des éléments de diff minimum, puis sélectionner ceux-ci :

>>> df.loc[df.groupby("item")["diff"].idxmin()]
   item  diff  otherstuff
1     1     1           2
6     2    -6           2
7     3     0           0

[3 rows x 3 columns]

Une autre méthode consiste à trier la trame de données par le "diff ", puis prenez le premier élément de chaque groupe d'éléments :

>>> df.sort_values("diff").groupby("item", as_index=False).first()
   item  diff  otherstuff
0     1     1           2
1     2    -6           2
2     3     0           0

[3 rows x 3 columns]

Ces deux méthodes produiront le résultat souhaité, tout en conservant la colonne "autres éléments". Gardez à l'esprit que les indices résultants peuvent être différents même si le contenu de la ligne est le même.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn