如何根據列值從DataFrame 中選擇資料
在SQL 中,根據列值選擇行的典型查詢如下所示例如:
SELECT * FROM table WHERE column_name = some_value
要在Pandas中達到相同的結果,有幾種方法:
精確值匹配
要選擇列值等於特定值(some_value) 的行,請在.loc 中使用== 運算子:
df.loc[df['column_name'] == some_value]
價值包容與排除
要選擇列值包含在清單(some_values)中的行,請使用isin 函數:
df.loc[df['column_name'].isin(some_values)]
若要排除特定值,請對傳回的布林系列取反by isin:
df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation
組合條件
可以使用& (AND) 和| 等邏輯運算子組合多重條件(OR):
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
請注意,括號是確保正確的運算子優先順序所必需的。
範例
考慮 DataFrame:
import pandas as pd import numpy as np df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(), 'B': 'one one two three two two one three'.split(), 'C': np.arange(8), 'D': np.arange(8) * 2})
選擇「A」等於的行'foo':
print(df.loc[df['A'] == 'foo'])
產量:
A B C D 0 foo one 0 0 2 foo two 2 4 4 foo two 4 8 6 foo one 6 12 7 foo three 7 14
多值選擇最佳化
多值選擇最佳化df = df.set_index(['B']) print(df.loc[df.index.isin(['one','two'])])
A C D B one foo 0 0 one bar 1 2 one foo 6 12 two foo 2 4 two foo 4 8 two bar 5 10多值選擇最佳化 對於基於多個值選擇行,它是建立索引並將.loc 與df.index.isin結合使用會更有效。這可以避免多次呼叫 isin,從而提高效能。 產量:
以上是如何根據列值從 Pandas DataFrame 中高效選擇資料?的詳細內容。更多資訊請關注PHP中文網其他相關文章!