Heim  >  Artikel  >  Backend-Entwicklung  >  So kombinieren Sie Pandas-DataFrames basierend auf einer gemeinsam genutzten Spalte: Eine Anleitung zu „join()“ und „merge()“.

So kombinieren Sie Pandas-DataFrames basierend auf einer gemeinsam genutzten Spalte: Eine Anleitung zu „join()“ und „merge()“.

Barbara Streisand
Barbara StreisandOriginal
2024-10-24 22:10:02162Durchsuche

How to Combine Pandas DataFrames Based on a Shared Column: A Guide to `join()` and `merge()`

Kombinieren von Pandas-Datenrahmen in einer gemeinsamen Spalte: Eine umfassende Anleitung

Einführung

Das Kombinieren von Daten aus mehreren Datenrahmen ist eine häufige Aufgabe bei der Datenanalyse . Pandas bietet hierfür mehrere Methoden an, darunter die Funktionen join() und merge(). In diesem Artikel wird gezeigt, wie Sie diese Funktionen verwenden, um zwei Datenrahmen zu kombinieren, die eine gemeinsame Spalte haben.

Verwenden der Funktion „join()“

Die Funktion „join()“ führt standardmäßig einen inneren Join durch Es behält nur Zeilen bei, die übereinstimmende Werte in der Join-Spalte haben. Im bereitgestellten Beispiel kann die Funktion „join()“ nicht verwendet werden, da „restaurant_ids_dataframe“ und „restaurant_review_frame“ überlappende Spaltennamen (Sterne und Typ) haben, wie durch die Fehlermeldung angezeigt:

Exception: columns overlap: Index([business_id, stars, type], dtype=object)

Verwendung der Funktion merge()

Die Funktion merge() bietet mehr Flexibilität beim Kombinieren von Datenrahmen. Um einen Outer-Join durchzuführen, der alle Zeilen aus beiden Datenrahmen beibehält, verwenden Sie den Parameter how='outer':

<code class="python">import pandas as pd
pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>

Standardmäßig verwendet merge() die Suffixe ('_x', '_y' ), um zwischen Spalten mit doppelten Namen zu unterscheiden. Um die Suffixe anzupassen, übergeben Sie einen Wert an den Parameter „suffixes“, wie unten gezeigt:

<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>

Fazit

Sowohl die Funktionen „join()“ als auch „merge()“ können zum Kombinieren von Datenrahmen verwendet werden auf einer gemeinsamen Säule. Das Verständnis der Unterschiede zwischen diesen Funktionen ist entscheidend für das Erreichen des gewünschten Join-Verhaltens. Die Funktion merge() bietet mehr Flexibilität, einschließlich der Möglichkeit, äußere Verknüpfungen durchzuführen und Spaltensuffixe anzupassen. Wenn Sie diese Techniken beherrschen, können Sie Datenrahmen effektiv kombinieren, um aussagekräftige Erkenntnisse aus Ihren Datensätzen zu gewinnen.

Das obige ist der detaillierte Inhalt vonSo kombinieren Sie Pandas-DataFrames basierend auf einer gemeinsam genutzten Spalte: Eine Anleitung zu „join()“ und „merge()“.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn