Heim >Backend-Entwicklung >Python-Tutorial >Wie finde ich alle doppelten Elemente in einem Pandas-DataFrame mithilfe von „isin' und „sort_values'?
Auflisten aller doppelten Elemente in einem Pandas-DataFrame mit „isin“ und „sort_values“
In diesem Artikel befassen wir uns mit dem Problem Möglichkeit, alle doppelten Elemente in einer Liste von Elementen zu finden, die möglicherweise Exportfehler enthalten. Unser Ziel ist es, eine umfassende Liste dieser Duplikate zum manuellen Vergleich und zur Fehlerbehebung abzurufen.
Die „duplicated“-Methode von Pandas gibt standardmäßig nur die erste Instanz doppelter Werte zurück. Mit einer Kombination aus „isin“ und „sort_values“ können wir jedoch alle Zeilen anzeigen, die mit doppelten IDs verknüpft sind:
<code class="python"># Import the pandas library import pandas as pd # Read the data from the CSV file df = pd.read_csv('dup.csv') # Extract the 'ID' column ids = df['ID'] # Use 'isin' to filter for rows where the 'ID' matches any of the duplicate IDs df[ids.isin(ids[ids.duplicated()])].sort_values('ID')</code>
Diese Methode listet alle Zeilen aus dem DataFrame auf, in denen die Spalte „ID“ eines enthält die als Duplikate gekennzeichneten IDs. Die Ausgabe eliminiert doppelte Zeilen und stellt sicher, dass jede doppelte ID nur einmal vorkommt.
Alternative Methode: Gruppieren nach IDs mit „groupby“ und „concat“
Ein alternativer Ansatz beinhaltet das Gruppieren des DataFrame nach „ID“ und das anschließende Verketten der Gruppen mit mehr als einer Zeile:
<code class="python"># Group the DataFrame by 'ID' groups = df.groupby('ID') # Identify groups with more than one row large_groups = [group for _, group in groups if len(group) > 1] # Concatenate the large groups pd.concat(large_groups)</code>
Diese Methode ruft alle doppelten Elemente ab, wobei wiederum Duplikate innerhalb jeder doppelten Gruppe ausgeschlossen werden. Standardmäßig hängt die Funktion „concat“ die doppelten Gruppen vertikal an.
Das obige ist der detaillierte Inhalt vonWie finde ich alle doppelten Elemente in einem Pandas-DataFrame mithilfe von „isin' und „sort_values'?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!