首页 >后端开发 >Python教程 >如何使用多个标准有效过滤 Pandas 数据帧和系列

如何使用多个标准有效过滤 Pandas 数据帧和系列

Susan Sarandon
Susan Sarandon原创
2024-10-20 12:18:30290浏览

How to Efficiently Filter Pandas DataFrames and Series Using Multiple Criteria

高效地将多个过滤器应用于 Pandas 数据帧和系列

在 Pandas 中处理数据时,通常需要根据多个条件进行过滤。虽然传统方法涉及链接多个 reindex() 操作,但这种技术会创建新对象并复制数据,从而导致效率低下。

另一种方法是利用布尔索引,这明显更有效。 Pandas 允许布尔索引,从而能够根据 True/False 评估直接对数据进行子集化。

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

这种技术避免了创建新对象和不必要的复制,提供了更有效的数据过滤方法。

为了进一步提高效率,可以为此目的编写辅助函数:

<code class="python">def b(x, col, op, n): 
     return op(x[col],n)

def f(x, *b):
     return x[(np.logical_and(*b))]</code>

使用这些辅助函数,应用多个过滤器变得简单:

<code class="python">b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
f(df, b1, b2)</code>

对于 Pandas 版本0.13 及更高版本,专用查询方法提供了一种更有效的方法来应用多个过滤器,利用 numexpr 进行优化:

<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>

以上是如何使用多个标准有效过滤 Pandas 数据帧和系列的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn