首頁 >後端開發 >Python教學 >如何有效率地過濾具有多個條件的 Pandas DataFrame 或 Series?

如何有效率地過濾具有多個條件的 Pandas DataFrame 或 Series?

DDD
DDD原創
2024-10-20 11:56:02463瀏覽

How to Efficiently Filter Pandas DataFrame or Series with Multiple Conditions?

多條件高效過濾 Pandas DataFrame 或 Series

Pandas 提供了多種過濾資料的方法,包括 reindex()、apply() 和 map() 。然而,當應用多個過濾器時,效率就成為一個問題。

為了最佳化過濾,請考慮使用布林索引。 Pandas 和 Numpy 都支援布林索引,它直接對底層資料數組進行操作,而不會創建不必要的副本。

以下是布林索引的範例:

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

此表達式傳回包含下列內容的 Pandas Series:僅列「col1」中的值大於或等於 1 的行。

要套用多個篩選器,請使用邏輯運算子「&」(AND)和「|」 (或)。例如:

<code class="python">df[(df['col1'] >= 1) &amp; (df['col1'] <=1 )]</code>

此表達式傳回一個 DataFrame,僅包含列「col1」中的值在 1 和 1 之間(含 1 和 1)的行。

對於輔助函數,請考慮定義以下函數:取得一個 DataFrame 並傳回一個布林系列,讓您可以使用邏輯運算子組合多個篩選器。

<code class="python">def b(x, col, op, n):
    return op(x[col],n)

def f(x, *b):
    return x[(np.logical_and(*b))]</code>

Pandas 0.13 引入了 query() 方法,該方法提供了一種更有效的方式來表達複雜的過濾條件。假設有效的列標識符,以下程式碼根據多個條件過濾DataFrame df:

<code class="python">df.query('col1 <= 1 &amp; 1 <= col1')</code>

總之,布林索引提供了一種有效的方法,可以將多個過濾器應用於Pandas DataFrame 或Series ,而無需建立不必要的副本。使用邏輯運算子和輔助函數組合多個篩選器以實現擴充功能。

以上是如何有效率地過濾具有多個條件的 Pandas DataFrame 或 Series?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn