ホームページ >バックエンド開発 >Python チュートリアル >列の値に基づいて Pandas DataFrame からデータを効率的に選択する方法

列の値に基づいて Pandas DataFrame からデータを効率的に選択する方法

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-24 01:24:11449ブラウズ

How to Efficiently Select Data from a Pandas DataFrame Based on Column Values?

列の値に基づいて DataFrame からデータを選択する方法

SQL では、列の値に基づいて行を選択する一般的なクエリは次のようになります。 like:

SELECT *
FROM table
WHERE column_name = some_value

Pandas で同じ結果を達成するには、いくつかの方法があります。アプローチ:

正確な値の一致

列の値が特定の値 (some_value) に等しい行を選択するには、.loc 内で == 演算子を使用します:

df.loc[df['column_name'] == some_value]

価値の包含と除外

列の値がリスト (some_values) に含まれる行を選択するには、isin 関数を使用します。

df.loc[df['column_name'].isin(some_values)]

特定の値を除外するには、返されたブール値系列を否定します。 by isin:

df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation

結合条件

& (AND) や | などの論理演算子を使用して複数の条件を組み合わせることができます。 (OR):

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

演算子の優先順位を正しくするには括弧が必要であることに注意してください。

DataFrame を考えてみましょう:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})

「A」が等しい行を選択するには'foo':

print(df.loc[df['A'] == 'foo'])

Yields:

     A      B  C  D
0  foo    one  0  0
2  foo    two  2  4
4  foo    two  4  8
6  foo    one  6  12
7  foo  three  7  14

複数の値選択の最適化

複数の値に基づいて行を選択する場合、インデックスを作成し、.loc を df.index.isin とともに使用する方が効率的です。これにより、isin への複数の呼び出しが回避され、パフォーマンスが向上します。

df = df.set_index(['B'])
print(df.loc[df.index.isin(['one','two'])])

結果:

       A  C  D
B
one  foo  0  0
one  bar  1  2
one  foo  6  12
two  foo  2  4
two  foo  4  8
two  bar  5  10

以上が列の値に基づいて Pandas DataFrame からデータを効率的に選択する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。