Heim >Backend-Entwicklung >Python-Tutorial >Wie identifiziere ich alle doppelten Zeilen in einem Pandas-DataFrame?
Wie erhalte ich eine Liste aller doppelten Elemente mit Pandas in Python?
Problem:
Ihr Pandas DataFrame enthält doppelte Zeilen, aber die Verwendung der duplizierten()-Methode gibt nur die erste doppelte Instanz zurück. Sie möchten eine umfassende Liste aller Vorkommen doppelter Zeilen zum manuellen Vergleich.
Lösung 1: Zeilen mit doppelten IDs isolieren
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
Während diese Methode effektiv alle doppelten Zeilen abruft, erstellt sie doppelte ID-Zeilen in der Ausgabe.
Lösung 2 : Nach ID gruppieren und nach Duplikaten filtern
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
Dieser Ansatz führt zu einer optimierten Ausgabe ohne redundante ID-Zeilen.
Das obige ist der detaillierte Inhalt vonWie identifiziere ich alle doppelten Zeilen in einem Pandas-DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!