Maison >développement back-end >Tutoriel Python >Comment supprimer les doublons dans la colonne A tout en conservant la ligne avec la valeur la plus élevée dans la colonne B ?
Conserver la ligne avec la valeur B la plus élevée lors de la suppression des doublons dans la colonne A
La tâche à accomplir consiste à supprimer les valeurs en double dans la colonne A de une trame de données tout en préservant la ligne avec la valeur la plus élevée dans la colonne B. Pour y parvenir, nous pouvons utiliser les fonctions intégrées dans Pandas de Python bibliothèque.
Une approche consiste à trier la trame de données par colonne A, puis à supprimer les doublons tout en conservant la dernière occurrence. Ceci est exprimé ci-dessous :
df.sort_values(by='A').drop_duplicates(subset='A', keep='last')
Alternativement, une solution plus flexible pouvant prendre en compte différents critères consiste à regrouper le dataframe par colonne A. Au sein de chaque groupe, la ligne avec la valeur maximale dans la colonne B peut être extrait. Ceci peut être réalisé en utilisant le code suivant :
df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
En implémentant l'une ou l'autre de ces méthodes, vous pouvez éliminer efficacement les valeurs en double dans la colonne A tout en garantissant que les lignes avec les valeurs B les plus élevées sont préservées.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!