ホームページ >バックエンド開発 >Python チュートリアル >Numpy ブロードキャストを使用してパンダで範囲条件によってデータフレームをマージする方法?

Numpy ブロードキャストを使用してパンダで範囲条件によってデータフレームをマージする方法?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-10-31 09:33:01372ブラウズ

How to Merge DataFrames by Range Condition in Pandas Using Numpy Broadcasting?

Pandas で範囲条件によってデータフレームを結合する

データ分析の領域では、複数のソースからのデータを結合するのが一般的なタスクです。データ操作用の強力な Python ライブラリである Pandas は、範囲条件などのデータフレームを結合するためのさまざまなメソッドを提供します。この記事では、この特定のシナリオを詳しく掘り下げ、numpy ブロードキャストを使用した効率的な解決策を紹介します。

問題の説明

2 つのデータフレーム A と B が与えられた場合、目標は、データフレーム A の値がデータフレーム B で定義された特定の範囲内に収まる内部結合。従来、これは SQL 構文を使用して実現されていました:

<code class="sql">SELECT *
FROM A, B
WHERE A_value BETWEEN B_low AND B_high</code>

既存のソリューション

Pandas は、ダミー列を使用し、ダミー列でマージし、不要な行をフィルターで除外するという回避策を提供します。ただし、この方法は計算量が多くなります。あるいは、B の各 A 値に検索関数を適用することもできますが、このアプローチにも欠点があります。

Numpy ブロードキャスト: 実用的なアプローチ

Numpy ブロードキャストは、エレガントで効率的なソリューション。この手法では、ベクトル化を利用して、個々の要素ではなく配列全体に対して計算を実行します。目的のマージを実現するには:

  1. データフレーム A と B から値を抽出します。
  2. numpy ブロードキャストを使用してブール マスクを作成します:

    • A_value >= B_low
    • A_value <= B_high
  3. マスクが True であるインデックスを見つけるには、numpy の np.where を使用します。
  4. 連結識別されたインデックスに基づいて、データフレーム A と B から対応する行を抽出します。

このアプローチでは、ブロードキャストを利用して A データフレーム全体の範囲比較を実行し、計算時間と複雑さを大幅に削減します。

次のデータフレームを考えてみましょう:

<code class="python">A = pd.DataFrame(dict(
    A_id=range(10),
    A_value=range(5, 105, 10)
))
B = pd.DataFrame(dict(
    B_id=range(5),
    B_low=[0, 30, 30, 46, 84],
    B_high=[10, 40, 50, 54, 84]
))</code>

出力:

   A_id  A_value  B_high  B_id  B_low
0     0        5      10     0      0
1     3       35      40     1     30
2     3       35      50     2     30
3     4       45      50     2     30

この出力は、成功したことを示しています。指定された範囲条件に基づいてデータフレーム A と B をマージします。

追加の考慮事項

左結合を実行するには、データフレーム A の不一致行を出力に含めます。これは、numpy の ~np.in1d を使用して一致しない行を特定し、結果に追加することで実現できます。

結論として、numpy ブロードキャストは、範囲条件に基づいてデータフレームを結合するための堅牢かつ効率的なアプローチを提供します。ベクトル化機能によりパフォーマンスが向上し、大規模なデータセットにとって理想的なソリューションとなります。

以上がNumpy ブロードキャストを使用してパンダで範囲条件によってデータフレームをマージする方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。