ホームページ >バックエンド開発 >Python チュートリアル >共有列に基づいて Pandas DataFrame を結合する方法: `join()` と `merge()` のガイド

共有列に基づいて Pandas DataFrame を結合する方法: `join()` と `merge()` のガイド

Barbara Streisand
Barbara Streisandオリジナル
2024-10-24 22:10:02314ブラウズ

How to Combine Pandas DataFrames Based on a Shared Column: A Guide to `join()` and `merge()`

共有列での Pandas データ フレームの結合: 包括的なガイド

はじめに

複数のデータ フレームのデータを結合することは、データ分析における一般的なタスクです。 Pandas は、これを実現するために、join() 関数や merge() 関数など、いくつかのメソッドを提供します。この記事では、これらの関数を使用して、共通の列を共有する 2 つのデータ フレームを結合する方法を説明します。

join() 関数の使用

join() 関数は、デフォルトで内部結合を実行します。結合列に一致する値を持つ行のみが保持されます。この例では、次のエラー メッセージが示すように、restaurant_ids_dataframe と restaurant_review_frame の列名 (星と型) が重複しているため、join() 関数を使用できません。

Exception: columns overlap: Index([business_id, stars, type], dtype=object)

merge() 関数の使用

merge() 関数を使用すると、データ フレームをより柔軟に結合できます。両方のデータ フレームのすべての行を保持する外部結合を実行するには、how='outer' パラメーターを使用します。

<code class="python">import pandas as pd
pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>

デフォルトでは、merge() はサフィックス ('_x'、'_y') を使用します。 ) 重複した名前を持つ列を区別します。サフィックスをカスタマイズするには、以下に示すように、suffixes パラメーターに値を渡します。

<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>

結論

データ フレームを結合するには、join() 関数と merge() 関数の両方を使用できます。共通の列にあります。目的の結合動作を実現するには、これらの関数の違いを理解することが重要です。 merge() 関数は、外部結合の実行や列サフィックスのカスタマイズ機能など、より高い柔軟性を提供します。これらのテクニックをマスターすると、データ フレームを効果的に組み合わせて、データセットから有意義な洞察を抽出できます。

以上が共有列に基づいて Pandas DataFrame を結合する方法: `join()` と `merge()` のガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。