Maison > Article > développement back-end > Voici quelques titres basés sur des questions qui capturent l’essence de votre article : **Court et percutant :** * **Comment trouver TOUTES les lignes en double dans Pandas ?** * **Extraction de chaque doublon dans une donnée Pandas
Comment extraire une liste complète d'éléments en double à l'aide de Pandas en Python ?
Il est possible de rencontrer une situation dans laquelle un ensemble de données contient problèmes potentiels d’exportation, entraînant des articles en double. L’identification de ces doublons est cruciale pour une comparaison manuelle ultérieure. Cependant, la méthode de duplication Pandas par défaut ne renvoie que la première instance d'un doublon.
Méthode 1 : impression de toutes les lignes avec des ID en double
En utilisant cette méthode, vous pouvez identifier et imprimez toutes les lignes où l'ID correspond à l'un des ID de la série dupliquée.
<code class="python">import pandas as pd df = pd.read_csv("dup.csv") ids = df["ID"] df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Méthode 2 : Regroupement par ID
Vous pouvez également regrouper les dataframe par la colonne ID et concaténer les groupes avec plus d'une ligne dans un nouveau dataframe.
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!