首页 >后端开发 >Python教程 >如何根据列值从 Pandas DataFrame 中高效选择数据?

如何根据列值从 Pandas DataFrame 中高效选择数据?

Linda Hamilton
Linda Hamilton原创
2024-12-24 01:24:11413浏览

How to Efficiently Select Data from a Pandas DataFrame Based on Column Values?

如何根据列值从 DataFrame 中选择数据

在 SQL 中,根据列值选择行的典型查询如下所示比如:

SELECT *
FROM table
WHERE column_name = some_value

要在 Pandas 中达到相同的结果,有几种方法:

精确值匹配

要选择列值等于特定值 (some_value) 的行,请在 .loc 中使用 == 运算符:

df.loc[df['column_name'] == some_value]

价值包容和排除

要选择列值包含在列表(some_values)中的行,请使用 isin 函数:

df.loc[df['column_name'].isin(some_values)]

要排除特定值,请对返回的布尔系列取反by isin:

df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation

组合条件

可以使用 & (AND) 和 | 等逻辑运算符组合多个条件(OR):

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

请注意,括号是确保正确的运算符优先级所必需的。

示例

考虑 DataFrame:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})

选择“A”等于的行'foo':

print(df.loc[df['A'] == 'foo'])

产量:

     A      B  C  D
0  foo    one  0  0
2  foo    two  2  4
4  foo    two  4  8
6  foo    one  6  12
7  foo  three  7  14

多值选择优化

对于基于多个值选择行,它是创建索引并将 .loc 与 df.index.isin 结合使用会更有效。这可以避免多次调用 isin,从而提高性能。

df = df.set_index(['B'])
print(df.loc[df.index.isin(['one','two'])])

产量:

       A  C  D
B
one  foo  0  0
one  bar  1  2
one  foo  6  12
two  foo  2  4
two  foo  4  8
two  bar  5  10

以上是如何根据列值从 Pandas DataFrame 中高效选择数据?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn