ホームページ  >  記事  >  バックエンド開発  >  複数の条件で Pandas DataFrame またはシリーズを効率的にフィルタリングする方法は?

複数の条件で Pandas DataFrame またはシリーズを効率的にフィルタリングする方法は?

DDD
DDDオリジナル
2024-10-20 11:56:02370ブラウズ

How to Efficiently Filter Pandas DataFrame or Series with Multiple Conditions?

複数の条件で Pandas データフレームまたはシリーズを効率的にフィルタリングする

Pandas には、reindex()、apply()、map() など、データをフィルタリングするためのメソッドが多数用意されています。 。ただし、複数のフィルタを適用する場合、効率が問題になります。

フィルタリングを最適化するには、ブール型インデックスの利用を検討してください。 Pandas と Numpy はどちらも、不必要なコピーを作成せずに基になるデータ配列を直接操作するブール型インデックス付けをサポートしています。

ブール型インデックス付けの例を次に示します。

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

この式は、以下を含む Pandas シリーズを返します。列 'col1' の値が 1 以上である行のみ。

複数のフィルターを適用するには、論理演算子 '&' (AND) および '|' を使用します。 (または)。例:

<code class="python">df[(df['col1'] >= 1) &amp; (df['col1'] <=1 )]</code>

この式は、列 'col1' の値が 1 から 1 までの行のみを含む DataFrame を返します。

ヘルパー関数の場合は、次の関数を定義することを検討してください。 DataFrame を取得し、Boolean Series を返すことで、論理演算子を使用して複数のフィルターを組み合わせることができます。

<code class="python">def b(x, col, op, n):
    return op(x[col],n)

def f(x, *b):
    return x[(np.logical_and(*b))]</code>

Pandas 0.13 では、複雑なフィルター条件を表現するより効率的な方法を提供する query() メソッドが導入されました。有効な列識別子を想定して、次のコードは複数の条件に基づいて DataFrame df をフィルター処理します:

<code class="python">df.query('col1 <= 1 &amp; 1 <= col1')</code>

要約すると、ブール インデックス作成は、不要なコピーを作成せずに複数のフィルターを Pandas DataFrame または Series に適用する効率的な方法を提供します。論理演算子とヘルパー関数を使用して、複数のフィルターを組み合わせて機能を拡張します。

以上が複数の条件で Pandas DataFrame またはシリーズを効率的にフィルタリングする方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。