suchen
HeimBackend-EntwicklungPython-TutorialWie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?

How to Efficiently Extract Rows from One Pandas DataFrame that are Absent in Another?

Abrufen von Zeilen aus einem Datenrahmen, die von einem anderen ausgeschlossen sind

In Pandas ist es üblich, mehrere Datenrahmen mit potenziell überlappenden Daten zu haben. Eine häufig auftretende Aufgabe besteht darin, Zeilen aus einem Datenrahmen zu isolieren, die in einem anderen nicht vorhanden sind. Dieser Vorgang ist besonders nützlich, wenn Sie mit Teilmengen arbeiten oder Daten filtern.

Problemformulierung:

Gegeben zwei Pandas-Datenrahmen, wobei df1 im Vergleich zu df2 eine Obermenge von Zeilen enthält, Unser Ziel ist es, die Zeilen in df1 zu erhalten, die in df2 nicht gefunden werden. Das folgende Beispiel veranschaulicht dieses Szenario anhand eines einfachen Falls:

import pandas as pd

df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5], 'col2': [10, 11, 12, 13, 14]})
df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]})

print(df1)
print(df2)

# Expected result:
#   col1  col2
# 3     4    13
# 4     5    14

Lösung:

Um dieses Problem effektiv anzugehen, verwenden wir eine Technik, die als Left Join bekannt ist. Dieser Vorgang führt df1 und df2 zusammen und stellt gleichzeitig sicher, dass alle Zeilen von df1 beibehalten werden. Darüber hinaus fügen wir eine Indikatorspalte ein, um den Ursprung jeder Zeile nach der Zusammenführung zu identifizieren. Indem wir die eindeutigen Zeilen von df2 nutzen und Duplikate ausschließen, erreichen wir das gewünschte Ergebnis.

Der folgende Python-Code implementiert diese Lösung:

df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True)
result = df_all[df_all['_merge'] == 'left_only']

Erklärung:

  1. Left Join: Die Merge-Funktion führt einen Left Join zwischen durch df1 und df2.drop_duplicates(). Dieser Vorgang führt Zeilen von df1 mit Zeilen von df2 zusammen, basierend auf den übereinstimmenden Werten in den Spalten col1 und col2.
  2. Merge-Indikator: Der Indikatorparameter ist auf True gesetzt, um eine zusätzliche Spalte mit dem Namen _merge einzuschließen im resultierenden Datenrahmen df_all. Diese Spalte gibt den Ursprung jeder Zeile an: „both“ für Zeilen, die sowohl in df1 als auch in df2 vorhanden sind, „left_only“ für Zeilen exklusiv für df1 und „right_only“ für Zeilen exklusiv für df2.
  3. Filtern nach „left_only“: Um Zeilen aus df1 zu isolieren, die nicht in df2 sind, filtern wir den df_all-Datenrahmen durch Überprüfen Zeilen mit _merge gleich „left_only“. Dadurch erhalten wir das gewünschte Ergebnis.

Vermeidung häufiger Fallstricke:

Es ist wichtig zu beachten, dass einige Lösungen möglicherweise fälschlicherweise nach einzelnen Spaltenwerten suchen, anstatt sie abzugleichen Reihen als Ganzes. Solche Ansätze können zu falschen Ergebnissen führen, wie im folgenden Beispiel dargestellt:

~df1.col1.isin(common.col1) & ~df1.col2.isin(common.col2)

Dieser Code berücksichtigt nicht das gemeinsame Auftreten von Werten in Zeilen und kann zu falschen Ergebnissen führen, wenn Zeilen in df1 Werte enthalten, die einzeln erscheinen in df2, aber nicht in derselben Zeile.

Durch die Übernahme des oben beschriebenen Left-Join-Ansatzes stellen wir sicher, dass die abgeleiteten Zeilen korrekt als exklusiv für df1 identifiziert werden. Diese Technik bietet eine zuverlässige und effiziente Lösung zum Extrahieren von Zeilen, die in einem Datenrahmen vorhanden sind, in einem anderen jedoch nicht.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal?Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal?Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie benutze ich eine schöne Suppe, um HTML zu analysieren?Wie benutze ich eine schöne Suppe, um HTML zu analysieren?Mar 10, 2025 pm 06:54 PM

In diesem Artikel wird erklärt, wie man schöne Suppe, eine Python -Bibliothek, verwendet, um HTML zu analysieren. Es beschreibt gemeinsame Methoden wie find (), find_all (), select () und get_text () für die Datenextraktion, die Behandlung verschiedener HTML -Strukturen und -Anternativen (SEL)

Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch?Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch?Mar 10, 2025 pm 06:52 PM

Dieser Artikel vergleicht TensorFlow und Pytorch für Deep Learning. Es beschreibt die beteiligten Schritte: Datenvorbereitung, Modellbildung, Schulung, Bewertung und Bereitstellung. Wichtige Unterschiede zwischen den Frameworks, insbesondere bezüglich des rechnerischen Graps

Wie erstelle ich Befehlszeilenschnittstellen (CLIS) mit Python?Wie erstelle ich Befehlszeilenschnittstellen (CLIS) mit Python?Mar 10, 2025 pm 06:48 PM

Dieser Artikel führt die Python-Entwickler in den Bauen von CLIS-Zeilen-Schnittstellen (CLIS). Es werden mit Bibliotheken wie Typer, Click und ArgParse beschrieben, die Eingabe-/Ausgabemedelung betonen und benutzerfreundliche Designmuster für eine verbesserte CLI-Usabilität fördern.

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung?Was sind einige beliebte Python -Bibliotheken und ihre Verwendung?Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren?Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren?Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Erklären Sie den Zweck virtueller Umgebungen in Python.Erklären Sie den Zweck virtueller Umgebungen in Python.Mar 19, 2025 pm 02:27 PM

Der Artikel erörtert die Rolle virtueller Umgebungen in Python und konzentriert sich auf die Verwaltung von Projektabhängigkeiten und die Vermeidung von Konflikten. Es beschreibt ihre Erstellung, Aktivierung und Vorteile bei der Verbesserung des Projektmanagements und zur Verringerung der Abhängigkeitsprobleme.

Was sind reguläre Ausdrücke?Was sind reguläre Ausdrücke?Mar 20, 2025 pm 06:25 PM

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools