Wie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Wie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?

Susan Sarandon

Dec 06, 2024 pm 06:44 PM

How to Efficiently Extract Rows from One Pandas DataFrame that are Absent in Another?

Abrufen von Zeilen aus einem Datenrahmen, die von einem anderen ausgeschlossen sind

In Pandas ist es üblich, mehrere Datenrahmen mit potenziell überlappenden Daten zu haben. Eine häufig auftretende Aufgabe besteht darin, Zeilen aus einem Datenrahmen zu isolieren, die in einem anderen nicht vorhanden sind. Dieser Vorgang ist besonders nützlich, wenn Sie mit Teilmengen arbeiten oder Daten filtern.

Problemformulierung:

Gegeben zwei Pandas-Datenrahmen, wobei df1 im Vergleich zu df2 eine Obermenge von Zeilen enthält, Unser Ziel ist es, die Zeilen in df1 zu erhalten, die in df2 nicht gefunden werden. Das folgende Beispiel veranschaulicht dieses Szenario anhand eines einfachen Falls:

import pandas as pd

df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5], 'col2': [10, 11, 12, 13, 14]})
df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]})

print(df1)
print(df2)

# Expected result:
#   col1  col2
# 3     4    13
# 4     5    14

Lösung:

Um dieses Problem effektiv anzugehen, verwenden wir eine Technik, die als Left Join bekannt ist. Dieser Vorgang führt df1 und df2 zusammen und stellt gleichzeitig sicher, dass alle Zeilen von df1 beibehalten werden. Darüber hinaus fügen wir eine Indikatorspalte ein, um den Ursprung jeder Zeile nach der Zusammenführung zu identifizieren. Indem wir die eindeutigen Zeilen von df2 nutzen und Duplikate ausschließen, erreichen wir das gewünschte Ergebnis.

Der folgende Python-Code implementiert diese Lösung:

df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True)
result = df_all[df_all['_merge'] == 'left_only']

Erklärung:

Left Join: Die Merge-Funktion führt einen Left Join zwischen durch df1 und df2.drop_duplicates(). Dieser Vorgang führt Zeilen von df1 mit Zeilen von df2 zusammen, basierend auf den übereinstimmenden Werten in den Spalten col1 und col2.
Merge-Indikator: Der Indikatorparameter ist auf True gesetzt, um eine zusätzliche Spalte mit dem Namen _merge einzuschließen im resultierenden Datenrahmen df_all. Diese Spalte gibt den Ursprung jeder Zeile an: „both“ für Zeilen, die sowohl in df1 als auch in df2 vorhanden sind, „left_only“ für Zeilen exklusiv für df1 und „right_only“ für Zeilen exklusiv für df2.
Filtern nach „left_only“: Um Zeilen aus df1 zu isolieren, die nicht in df2 sind, filtern wir den df_all-Datenrahmen durch Überprüfen Zeilen mit _merge gleich „left_only“. Dadurch erhalten wir das gewünschte Ergebnis.

Vermeidung häufiger Fallstricke:

Es ist wichtig zu beachten, dass einige Lösungen möglicherweise fälschlicherweise nach einzelnen Spaltenwerten suchen, anstatt sie abzugleichen Reihen als Ganzes. Solche Ansätze können zu falschen Ergebnissen führen, wie im folgenden Beispiel dargestellt:

~df1.col1.isin(common.col1) & ~df1.col2.isin(common.col2)

Dieser Code berücksichtigt nicht das gemeinsame Auftreten von Werten in Zeilen und kann zu falschen Ergebnissen führen, wenn Zeilen in df1 Werte enthalten, die einzeln erscheinen in df2, aber nicht in derselben Zeile.

Durch die Übernahme des oben beschriebenen Left-Join-Ansatzes stellen wir sicher, dass die abgeleiteten Zeilen korrekt als exklusiv für df1 identifiziert werden. Diese Technik bietet eine zuverlässige und effiziente Lösung zum Extrahieren von Zeilen, die in einem Datenrahmen vorhanden sind, in einem anderen jedoch nicht.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Python: Ein tiefes Eintauchen in Zusammenstellung und InterpretationMay 12, 2025 am 12:14 AM

PythonusesahybridmodelofCompilation und Interpretation: 1) thepythonInterPreterCompilessourceCodeIntoplatform-unintenpendentBytecode.2) Thepythonvirtualmachine (PVM) ThenexexexexecthisByTeCode, BalancingeAnsewusewithperformance.

Ist Python eine interpretierte oder eine kompilierte Sprache, und warum ist es wichtig?May 12, 2025 am 12:09 AM

Pythonisbothinterpreted und kompiliert.1) ItscompiledToByteCodeForPortabilityAcrossplatform.2) thytecodeTheninterpreted, und das ErlaubnisfordyNamictyPingandRapidDevelopment zulässt, obwohl es sich

Für Schleife vs während der Schleife in Python: Schlüsselunterschiede erklärtMay 12, 2025 am 12:08 AM

ForloopsaridealWenyouKnowtHenumberofofiterationssinadvance, während whileloopsarebetterForsituationswhereyouneedtoloopuntilaconditionismet.forloopsaremoreffictionAndable, geeigneter Verfaserungsverlust, whereaswiloopsofofermorcontrolanduseusefulfulf

Für und während Schleifen: ein praktischer LeitfadenMay 12, 2025 am 12:07 AM

Forloopsareusedwhenthenumberofiterationsisknowninadvance,whilewhileloopsareusedwhentheiterationsdependonacondition.1)Forloopsareidealforiteratingoversequenceslikelistsorarrays.2)Whileloopsaresuitableforscenarioswheretheloopcontinuesuntilaspecificcond

Python: Ist es wirklich interpretiert? Die Mythen entlarvenMay 12, 2025 am 12:05 AM

Pythonisnotpurelyinterpretiert; itusesahybridapproachofByteCodecompilation undruntimeinterpretation.1) PythoncompilessourcecodeIntoBytecode, die ISthenexecutBythepythonvirtualmachine (Pvm)

Python -Verkettungslisten mit demselben ElementMay 11, 2025 am 12:08 AM

ToconcatenatelistsinpythonWithThesameElements, Verwendung: 1) Die Operatortokeepduplikate, 2) asettoremoveduplicate, or3) listenConpRectionforControloverDuplikate, EvermethodhasDifferentPerformanceInDormplocate.

Interpretiert gegen kompilierte Sprachen: Pythons PlatzMay 11, 2025 am 12:07 AM

PythonisaninterpretedLuage, OfferingaseofuseandflexibilitätsbutfacingPerformancelimitationsincriticalApplications.1) InterpretedLanguages LikePythonexecutine-by-Line, ermöglicht, dassmediateFeedbackandrapidPrototyping.2) CompiledLanguagesslikec/C.5.

Für und während der Schleifen: Wann benutzt du jeweils in Python?May 11, 2025 am 12:05 AM

Useforloopswhenthenumberofofiterationssisknowninadvance und wileloopswhenCiterationsDependonacondition.1) Forloopsardealforsequencelistorranges.2) Während

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vorByDDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Nordhold: Fusionssystem, erklärt

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.