Maison  >  Article  >  développement back-end  >  Comment obtenir une liste complète des éléments en double dans un DataFrame Pandas ?

Comment obtenir une liste complète des éléments en double dans un DataFrame Pandas ?

Susan Sarandon
Susan Sarandonoriginal
2024-10-26 03:35:02724parcourir

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

Obtenir une liste de tous les éléments en double dans Pandas

Dans Pandas, la méthode dupliquée peut être utilisée pour identifier les lignes en double dans un ensemble de données basé sur sur les colonnes spécifiées. Cependant, par défaut, il renvoie uniquement la première occurrence de chaque doublon. Pour obtenir une liste complète, considérez les approches suivantes :

Méthode n°1 : Filtrage avec la méthode isin

Cette méthode comporte deux étapes :

  1. Extrayez les identifiants uniques des lignes en double en utilisant :

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
  2. Utilisez la méthode isin pour filtrer toutes les lignes où l'identifiant correspond à l'un des identifiants en double :

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

Méthode n°2 : Regroupement avec groupby

Cette approche utilise l'opération groupby pour regrouper les lignes par colonne ID et filtrer groupes avec plus d'une ligne :

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

En utilisant ces méthodes, vous pouvez récupérer efficacement une liste complète des éléments en double dans votre DataFrame pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn