Heim >Backend-Entwicklung >Python-Tutorial >Wie erhalte ich eine vollständige Liste doppelter Elemente in einem Pandas-DataFrame?
Erhalten Sie eine Liste aller doppelten Elemente in Pandas
In Pandas kann die Duplikatmethode verwendet werden, um doppelte Zeilen innerhalb eines Datensatzes basierend zu identifizieren auf angegebenen Spalten. Standardmäßig wird jedoch nur das erste Vorkommen jedes Duplikats zurückgegeben. Um eine umfassende Liste zu erhalten, ziehen Sie die folgenden Ansätze in Betracht:
Methode #1: Filtern mit der isin-Methode
Diese Methode umfasst zwei Schritte:
Extrahieren Sie die eindeutigen IDs aus den doppelten Zeilen mit:
<code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
Verwenden Sie die isin-Methode, um alle Zeilen zu filtern, in denen die ID mit einer der doppelten IDs übereinstimmt:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Methode Nr. 2: Gruppieren mit Groupby
Dieser Ansatz verwendet die Groupby-Operation, um die Zeilen nach der ID-Spalte zu gruppieren und herauszufiltern Gruppen mit mehr als einer Zeile:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Mit diesen Methoden können Sie effizient eine vollständige Liste doppelter Elemente in Ihrem Pandas-DataFrame abrufen.
Das obige ist der detaillierte Inhalt vonWie erhalte ich eine vollständige Liste doppelter Elemente in einem Pandas-DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!