ホームページ >バックエンド開発 >Python チュートリアル >列の値に基づいて Pandas DataFrame 内の行を効率的に選択するにはどうすればよいですか?

列の値に基づいて Pandas DataFrame 内の行を効率的に選択するにはどうすればよいですか?

Patricia Arquette
Patricia Arquetteオリジナル
2024-12-25 16:02:15693ブラウズ

How Can I Efficiently Select Rows in a Pandas DataFrame Based on Column Values?

Pandas の列値に基づいた行の選択

他のリレーショナル データベースと同様に、特定の列の値に基づいて DataFrame から特定の行を選択する必要がある場合があります。 Pandas でこれをシームレスに実現するには、自由に使える方法がいくつかあります。

== と isin によるフィルタリング

列の値が特定の値と一致する行を取得するには、== 演算子を利用します。

df.loc[df['column_name'] == some_value]

逆に、列の値が値のコレクションに属する行を選択したい場合は、次のようにします。 isin:

df.loc[df['column_name'].isin(some_values)]

&

で条件を組み合わせる 選択範囲内の複数の条件を組み合わせるには、& で接続します:

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

注: ここで括弧は適切な評価を保証するために非常に重要です。

!= と を使用した値の除外~

特定の列値を持つ行を除外するには、!=:

df.loc[df['column_name'] != some_value]

を使用します。または、特定の範囲外の値については、~:

df = df.loc[~df['column_name'].isin(some_values)] # .loc is not in-place replacement
を使用して isin の結果を否定します。

アプリケーション例

次のことを考慮してくださいDataFrame:

import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})
print(df)

'A' 値 'foo' を持つ行の選択:

print(df.loc[df['A'] == 'foo'])

'B' 値 'one' または 'three' を持つ行の選択:

print(df.loc[df['B'].isin(['one','three'])])

インデックス作成によるパフォーマンスの向上

頻繁なフィルタリング操作の場合、最初にインデックスを作成する方が効率的です:

df = df.set_index(['B'])
print(df.loc['one'])

または、df.index.isin:

df.loc[df.index.isin(['one','two'])]
を使用します。

以上が列の値に基づいて Pandas DataFrame 内の行を効率的に選択するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。