ホームページ  >  記事  >  バックエンド開発  >  基本的な Pandas データ フィルタリングの方法とテクニック

基本的な Pandas データ フィルタリングの方法とテクニック

WBOY
WBOYオリジナル
2024-01-24 09:11:201455ブラウズ

基本的な Pandas データ フィルタリングの方法とテクニック

Pandas データ フィルタリングの基本的な方法とテクニック、特定のコード サンプルが必要です

はじめに:
データ分析と処理の継続的な開発により、Pandas はデータ サイエンティストとアナリストにとって優れたツールです。 Pandas は、NumPy に基づくオープンソースのデータ分析ライブラリであり、データの読み取り、クリーニング、分析、視覚化に適した柔軟で効率的なデータ構造を提供します。データ分析プロセスにおいて、データ フィルタリングは非常に重要なリンクです。この記事では、Pandas データ フィルタリングの基本的な方法とテクニックを紹介し、読者がよりよく理解して適用できるように、具体的なコード例を示します。

1. Pandas データ構造の確認
具体的なデータ スクリーニングを開始する前に、まず Pandas の主要なデータ構造 (Series と DataFrame) を確認しましょう。

1.1 Series
Series は、1 次元配列に似たオブジェクトで、データとインデックスのセットで構成されます。データは任意のタイプにすることができ、インデックスはデータを見つけてアクセスするのに役立つラベルです。次の方法でシリーズを作成できます:

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

1.2 DataFrame
DataFrame は Pandas で最も一般的に使用されるデータ構造であり、2 次元配列またはテーブルに似たオブジェクトとして表示できます。これは順序付けられた列のセットで構成されており、それぞれの列は異なるデータ型 (整数、浮動小数点、文字列など) にすることができます。

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

2. Pandas のデータ フィルタリング手法と手法
Pandas には豊富なデータ フィルタリング手法と手法が用意されており、一般的に使用されるいくつかの手法を以下に紹介します。

2.1 基本的な条件フィルタリング
指定した条件によるフィルタリングは、最も一般的なデータ フィルタリング方法の 1 つです。 Pandas は、SQL の WHERE キーワードと同様の機能を提供し、比較演算子 (==、!=、>、=、

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

2.2 複数条件フィルタリング
単一の条件によるフィルタリングに加えて、論理演算子 (and、or、not) や括弧を使用して複数の条件を組み合わせてフィルタリングすることもできます。例は次のとおりです。

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

2.3 isin() 関数のフィルタリング
isin() 関数は、特定の条件を満たすデータをフィルタリングするのに役立つ非常に便利なフィルタリング メソッドです。例は次のとおりです。

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

2.4 query() 関数 filtering
query() 関数は、Pandas が提供する高度なフィルタリング メソッドであり、1 行のコードで複雑なデータ フィルタリングを実装できます。例は次のとおりです。

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

2.5 列名によるフィルター
場合によっては、特定の列のデータのみをフィルターで除外する必要があり、列名を指定してフィルターできます。例は次のとおりです。

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

2.6 フィルタリングに loc と iloc を使用する
上記のメソッドに加えて、Pandas はデータ フィルタリング用に 2 つの特別な属性 loc と iloc も提供します。 loc はラベルに基づいたインデックス付けに使用され、iloc は位置に基づいたインデックス付けに使用されます。例は次のとおりです。

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

3. 概要
この記事では、Pandas データ フィルタリングの基本的な方法とテクニックを紹介し、具体的なコード例を示します。これらの方法をマスターすることで、データを柔軟にフィルタリングおよび処理して、必要な情報を抽出することができます。上記の方法に加えて、Pandas は実際のニーズに基づいてさらに学習し探索するための他の多くの強力な機能とツールも提供します。この記事が読者のデータ スクリーニングに役立ち、実際のアプリケーションでのデータ分析と処理に Pandas をより効果的に活用できるようになれば幸いです。

以上が基本的な Pandas データ フィルタリングの方法とテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。