ホームページ >バックエンド開発 >Python チュートリアル >基本的な Pandas データフィルタリングの方法とテクニック

基本的な Pandas データフィルタリングの方法とテクニック

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-01-24 09:11:201520ブラウズ

Pandas データフィルタリングの基本的な方法とテクニック、特定のコードサンプルが必要です

はじめに:
データ分析と処理の継続的な開発により、Pandas はデータサイエンティストとアナリストにとって優れたツールです。 Pandas は、NumPy に基づくオープンソースのデータ分析ライブラリであり、データの読み取り、クリーニング、分析、視覚化に適した柔軟で効率的なデータ構造を提供します。データ分析プロセスにおいて、データフィルタリングは非常に重要なリンクです。この記事では、Pandas データフィルタリングの基本的な方法とテクニックを紹介し、読者がよりよく理解して適用できるように、具体的なコード例を示します。

1. Pandas データ構造の確認
具体的なデータスクリーニングを開始する前に、まず Pandas の主要なデータ構造 (Series と DataFrame) を確認しましょう。

1.1 Series
Series は、1 次元配列に似たオブジェクトで、データとインデックスのセットで構成されます。データは任意のタイプにすることができ、インデックスはデータを見つけてアクセスするのに役立つラベルです。次の方法でシリーズを作成できます:

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

1.2 DataFrame
DataFrame は Pandas で最も一般的に使用されるデータ構造であり、2 次元配列またはテーブルに似たオブジェクトとして表示できます。これは順序付けられた列のセットで構成されており、それぞれの列は異なるデータ型 (整数、浮動小数点、文字列など) にすることができます。

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

2. Pandas のデータフィルタリング手法と手法
Pandas には豊富なデータフィルタリング手法と手法が用意されており、一般的に使用されるいくつかの手法を以下に紹介します。

2.1 基本的な条件フィルタリング
指定した条件によるフィルタリングは、最も一般的なデータフィルタリング方法の 1 つです。 Pandas は、SQL の WHERE キーワードと同様の機能を提供し、比較演算子 (==、!=、>、=、

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

2.2 複数条件フィルタリング
単一の条件によるフィルタリングに加えて、論理演算子 (and、or、not) や括弧を使用して複数の条件を組み合わせてフィルタリングすることもできます。例は次のとおりです。

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

2.3 isin() 関数のフィルタリング
isin() 関数は、特定の条件を満たすデータをフィルタリングするのに役立つ非常に便利なフィルタリングメソッドです。例は次のとおりです。

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

2.4 query() 関数 filtering
query() 関数は、Pandas が提供する高度なフィルタリングメソッドであり、1 行のコードで複雑なデータフィルタリングを実装できます。例は次のとおりです。

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

2.5 列名によるフィルター
場合によっては、特定の列のデータのみをフィルターで除外する必要があり、列名を指定してフィルターできます。例は次のとおりです。

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

2.6 フィルタリングに loc と iloc を使用する
上記のメソッドに加えて、Pandas はデータフィルタリング用に 2 つの特別な属性 loc と iloc も提供します。 loc はラベルに基づいたインデックス付けに使用され、iloc は位置に基づいたインデックス付けに使用されます。例は次のとおりです。

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

3. 概要
この記事では、Pandas データフィルタリングの基本的な方法とテクニックを紹介し、具体的なコード例を示します。これらの方法をマスターすることで、データを柔軟にフィルタリングおよび処理して、必要な情報を抽出することができます。上記の方法に加えて、Pandas は実際のニーズに基づいてさらに学習し探索するための他の多くの強力な機能とツールも提供します。この記事が読者のデータスクリーニングに役立ち、実際のアプリケーションでのデータ分析と処理に Pandas をより効果的に活用できるようになれば幸いです。

以上が基本的な Pandas データフィルタリングの方法とテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

sql numpy pandas 数据类型运算符比较运算符逻辑运算符字符串数据结构对象数据分析

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：pandas ライブラリのインポート効率を向上させ、一般的な問題を解決します次の記事：pandas ライブラリのインポート効率を向上させ、一般的な問題を解決します

続きを見る

基本的な Pandas データ フィルタリングの方法とテクニック

関連記事

基本的な Pandas データフィルタリングの方法とテクニック