データ分析の領域では、複数のソースからのデータを結合するのが一般的なタスクです。データ操作用の強力な Python ライブラリである Pandas は、範囲条件などのデータフレームを結合するためのさまざまなメソッドを提供します。この記事では、この特定のシナリオを詳しく掘り下げ、numpy ブロードキャストを使用した効率的な解決策を紹介します。
問題の説明
2 つのデータフレーム A と B が与えられた場合、目標は、データフレーム A の値がデータフレーム B で定義された特定の範囲内に収まる内部結合。従来、これは SQL 構文を使用して実現されていました:
<code class="sql">SELECT * FROM A, B WHERE A_value BETWEEN B_low AND B_high</code>
既存のソリューション
Pandas は、ダミー列を使用し、ダミー列でマージし、不要な行をフィルターで除外するという回避策を提供します。ただし、この方法は計算量が多くなります。あるいは、B の各 A 値に検索関数を適用することもできますが、このアプローチにも欠点があります。
Numpy ブロードキャスト: 実用的なアプローチ
Numpy ブロードキャストは、エレガントで効率的なソリューション。この手法では、ベクトル化を利用して、個々の要素ではなく配列全体に対して計算を実行します。目的のマージを実現するには:
numpy ブロードキャストを使用してブール マスクを作成します:
このアプローチでは、ブロードキャストを利用して A データフレーム全体の範囲比較を実行し、計算時間と複雑さを大幅に削減します。
例
次のデータフレームを考えてみましょう:
<code class="python">A = pd.DataFrame(dict( A_id=range(10), A_value=range(5, 105, 10) )) B = pd.DataFrame(dict( B_id=range(5), B_low=[0, 30, 30, 46, 84], B_high=[10, 40, 50, 54, 84] ))</code>
出力:
A_id A_value B_high B_id B_low 0 0 5 10 0 0 1 3 35 40 1 30 2 3 35 50 2 30 3 4 45 50 2 30
この出力は、成功したことを示しています。指定された範囲条件に基づいてデータフレーム A と B をマージします。
追加の考慮事項
左結合を実行するには、データフレーム A の不一致行を出力に含めます。これは、numpy の ~np.in1d を使用して一致しない行を特定し、結果に追加することで実現できます。
結論として、numpy ブロードキャストは、範囲条件に基づいてデータフレームを結合するための堅牢かつ効率的なアプローチを提供します。ベクトル化機能によりパフォーマンスが向上し、大規模なデータセットにとって理想的なソリューションとなります。
以上がNumpy ブロードキャストを使用してパンダで範囲条件によってデータフレームをマージする方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。