Maison >développement back-end >Tutoriel Python >Comment puis-je supprimer efficacement les lignes en double dans des colonnes spécifiques dans Pandas ?

Comment puis-je supprimer efficacement les lignes en double dans des colonnes spécifiques dans Pandas ?

DDD
DDDoriginal
2024-12-12 19:39:16378parcourir

How Can I Efficiently Remove Duplicate Rows Across Specific Columns in Pandas?

Suppression des lignes en double sur plusieurs colonnes dans Python Pandas

La fonction pandas drop_duplicates élimine les lignes en double d'un DataFrame, un outil inestimable pour le nettoyage des données . Pour étendre cette fonctionnalité, on peut spécifier les colonnes pour vérifier l'unicité.

Par exemple, considérons le DataFrame suivant :

    A   B   C
0   foo 0   A
1   foo 1   A
2   foo 1   B
3   bar 1   A

Supposons que vous souhaitiez supprimer les lignes qui ont des valeurs identiques dans les colonnes. «A» et «C». Dans ce cas, les lignes 0 et 1 seraient éliminées.

Auparavant, cette tâche nécessitait un filtrage manuel ou des opérations complexes. Cependant, avec la fonction drop_duplicates améliorée de pandas, c'est désormais un jeu d'enfant. L'introduction du paramètre keep vous permet de contrôler la façon dont les doublons sont gérés.

Pour supprimer les lignes qui correspondent à des colonnes spécifiques, utilisez le paramètre subset. En définissant keep sur False, vous demandez aux pandas d'éliminer toutes les lignes en double :

import pandas as pd
df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})
df.drop_duplicates(subset=['A', 'C'], keep=False)

Sortie :

    A   B   C
2   foo 1   B
3   bar 1   A

Comme vous pouvez le voir, les lignes 0 et 1 sont supprimées avec succès, ne laissant que les lignes qui sont uniques en fonction des valeurs des colonnes « A » et « C ».

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn