Pandas 提供了多種過濾資料的方法,包括 reindex()、apply() 和 map() 。然而,當應用多個過濾器時,效率就成為一個問題。
為了最佳化過濾,請考慮使用布林索引。 Pandas 和 Numpy 都支援布林索引,它直接對底層資料數組進行操作,而不會創建不必要的副本。
以下是布林索引的範例:
<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>
此表達式傳回包含下列內容的 Pandas Series:僅列「col1」中的值大於或等於 1 的行。
要套用多個篩選器,請使用邏輯運算子「&」(AND)和「|」 (或)。例如:
<code class="python">df[(df['col1'] >= 1) & (df['col1'] <=1 )]</code>
此表達式傳回一個 DataFrame,僅包含列「col1」中的值在 1 和 1 之間(含 1 和 1)的行。
對於輔助函數,請考慮定義以下函數:取得一個 DataFrame 並傳回一個布林系列,讓您可以使用邏輯運算子組合多個篩選器。
<code class="python">def b(x, col, op, n): return op(x[col],n) def f(x, *b): return x[(np.logical_and(*b))]</code>
Pandas 0.13 引入了 query() 方法,該方法提供了一種更有效的方式來表達複雜的過濾條件。假設有效的列標識符,以下程式碼根據多個條件過濾DataFrame df:
<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>
總之,布林索引提供了一種有效的方法,可以將多個過濾器應用於Pandas DataFrame 或Series ,而無需建立不必要的副本。使用邏輯運算子和輔助函數組合多個篩選器以實現擴充功能。
以上是如何有效率地過濾具有多個條件的 Pandas DataFrame 或 Series?的詳細內容。更多資訊請關注PHP中文網其他相關文章!