Heim >Backend-Entwicklung >Python-Tutorial >Wie führt man bereichsbasierte Verknüpfungen in Pandas effizient durch?

Wie führt man bereichsbasierte Verknüpfungen in Pandas effizient durch?

Linda Hamilton
Linda HamiltonOriginal
2024-11-02 00:19:02795Durchsuche

How to Efficiently Perform Range-Based Joins in Pandas?

Bereichsbasierte Verknüpfungen in Pandas optimieren

Bei der Arbeit mit Datenrahmen ist es häufig erforderlich, Verknüpfungen basierend auf einer Bereichsbedingung durchzuführen. Ein gängiger Ansatz in Pandas besteht darin, eine Dummy-Spalte zu erstellen, diese zu verknüpfen und nicht benötigte Zeilen herauszufiltern. Diese Lösung kann jedoch rechenintensiv sein, insbesondere bei großen Datenmengen.

Glücklicherweise gibt es effizientere und elegantere Möglichkeiten, bereichsbasierte Verknüpfungen in Pandas zu erreichen.

Verwendung von Numpy Broadcasting

Die einfachste Methode ist die Nutzung von Numpy Broadcasting. Dabei werden Pandas-Datenrahmen in Numpy-Arrays konvertiert und boolesche Operationen verwendet, um passende Zeilen zu identifizieren.

<code class="python">import numpy as np

a = A.A_value.values
bh = B.B_high.values
bl = B.B_low.values

i, j = np.where((a[:, None] >= bl) & (a[:, None] <= bh))

pd.concat([
    A.loc[i, :].reset_index(drop=True),
    B.loc[j, :].reset_index(drop=True)
], axis=1)</code>

Dieser Ansatz ist äußerst effizient, da er kostspielige Zeileniterationen vermeidet.

Erweiterung nach links Joins

Um diese Lösung auf Left-Joins zu erweitern, können wir die verbleibenden Zeilen aus Datenrahmen A anhängen, die mit keiner Zeile in Datenrahmen B übereinstimmen.

<code class="python">pd.concat([
    A.loc[i, :].reset_index(drop=True),
    B.loc[j, :].reset_index(drop=True)
], axis=1).append(
    A[~np.in1d(np.arange(len(A)), np.unique(i))],
    ignore_index=True, sort=False
)</code>

Dadurch wird sichergestellt, dass alle Zeilen aus Datenrahmen A werden in das Ergebnis einbezogen, auch wenn sie keine passende Zeile in Datenrahmen B haben.

Das obige ist der detaillierte Inhalt vonWie führt man bereichsbasierte Verknüpfungen in Pandas effizient durch?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn