Heim >Backend-Entwicklung >Python-Tutorial >Wie identifiziere und rufe ich doppelte Elemente in einem Pandas-DataFrame in Python ab?
So erhalten Sie mit Pandas in Python eine Liste aller doppelten Elemente
Bei der Arbeit mit Datensätzen kommt es häufig zu doppelten Einträgen . In diesem Fall möchten Sie alle doppelten Elemente in Ihrem Datensatz mithilfe von Pandas identifizieren.
Um dies zu erreichen, können Sie den folgenden Ansatz verwenden:
Methode 1 (Alle Zeilen drucken mit Doppelte IDs):
<code class="python">import pandas as pd # Read the CSV data into a DataFrame df = pd.read_csv("dup.csv") # Extract the "ID" column ids = df["ID"] # Create a new DataFrame with only the duplicate values duplicates = df[ids.isin(ids[ids.duplicated()])] # Sort the DataFrame by the "ID" column duplicates.sort_values("ID", inplace=True) # Print the duplicate values print(duplicates)</code>
Methode 2 (Gruppieren und Verketten doppelter Gruppen):
Diese Methode kombiniert die doppelten Gruppen, was zu einer prägnanten Darstellung führt der doppelten Elemente:
<code class="python"># Group the DataFrame by the "ID" column grouped = df.groupby("ID") # Filter the grouped DataFrame to include only groups with more than one row duplicates = [g for _, g in grouped if len(g) > 1] # Concatenate the duplicate groups into a new DataFrame duplicates = pd.concat(duplicates) # Print the duplicate values print(duplicates)</code>
Mit Methode 1 oder Methode 2 können Sie erfolgreich eine Liste aller doppelten Elemente in Ihrem Datensatz erhalten, sodass Sie diese visuell überprüfen und die Abweichungen untersuchen können.
Das obige ist der detaillierte Inhalt vonWie identifiziere und rufe ich doppelte Elemente in einem Pandas-DataFrame in Python ab?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!