Pandas データフィルタリングの高度なテクニックと実用的なアプリケーション-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pandas データフィルタリングの高度なテクニックと実用的なアプリケーション

PHPz

Jan 24, 2024 am 08:28 AM

Pandas データフィルタリングの高度なテクニックと実用的なアプリケーション

Pandas は強力なデータ処理および分析ツールであり、データを簡単にフィルタリングおよび処理するための多くの柔軟な機能と方法を提供します。この記事では、Pandas データフィルタリングの高度なテクニックをいくつか紹介し、実際のケースを通じて具体的なコード例を示します。

1. 基本的なデータフィルタリング

Pandas は、ブールインデックス、loc または iloc メソッドなどの使用など、データの基本的なフィルタリングを実行するためのさまざまなメソッドを提供します。ここでは、一般的な基本的なデータフィルタリングのケースをいくつか示します。

ブールインデックスフィルタリング

ブールインデックスは、特定の条件に基づいてデータをフィルタリングするために使用できます。たとえば、学生の情報を含むデータフレームがあり、スコアが 60 点を超える学生をフィルタリングして除外したいとします。これは、次のコードを使用して実現できます。

import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '成绩': [80, 70, 90, 50]
}

df = pd.DataFrame(data)
df_filtered = df[df['成绩'] > 60]

print(df_filtered)

loc メソッドのフィルタリング

loc メソッドは、行ラベルと列ラベルに基づいてデータをフィルタリングできます。たとえば、学生情報を含むデータフレームがあり、Zhang San と Li Si という名前の学生の学年と年齢をフィルタリングして除外したいとします。これを実現するには、次のコードを使用できます:

import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '成绩': [80, 70, 90, 50],
    '年龄': [18, 19, 20, 21]
}

df = pd.DataFrame(data)
df_filtered = df.loc[df['姓名'].isin(['张三', '李四']), ['成绩', '年龄']]

print(df_filtered)

2. 高度なデータフィルタリング

基本的なデータフィルタリング方法に加えて、Pandas は、クエリの使用など、多くの高度なデータフィルタリング手法も提供します。 MultiIndex は、マルチレベルのフィルタリングなどを実行します。以下にいくつかの事例を示します。

クエリメソッドのフィルタリング

クエリメソッドは、SQL に似た構文を使用してデータをフィルタリングできます。たとえば、学生の情報を含むデータフレームがあり、スコアが 60 を超え、18 歳から 20 歳までの学生をフィルタリングして除外したいとします。これを実現するには、次のコードを使用します。

import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '成绩': [80, 70, 90, 50],
    '年龄': [18, 19, 20, 21]
}

df = pd.DataFrame(data)
df_filtered = df.query('成绩 > 60 and 18 <= 年龄 <= 20')

print(df_filtered)

MultiIndex を使用してフィルタリングする

データフレームに複数のレベルのインデックスがある場合は、MultiIndex オブジェクトを使用して、マルチレベルフィルタリング。たとえば、学生の情報を含むデータフレームがあります。インデックスにはクラスと学生番号の 2 つのレベルが含まれています。クラス 1 の学生番号 001 と 002 の学生をフィルタリングして除外したいとします。これは、次のコードを使用して実現できます。

import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '成绩': [80, 70, 90, 50],
}

index = pd.MultiIndex.from_tuples([('1班', '001'), ('1班', '002'), ('2班', '001'), ('2班', '002')])
df = pd.DataFrame(data, index=index)
df_filtered = df.loc[('1班', ['001', '002']), :]

print(df_filtered)

3. ケース分析

次に、Pandas データフィルタリングの高度なテクニックをさらに説明するために、実際のデータセットを例として取り上げます。自動車のブランド、モデル、販売台数、販売量などの情報を含む自動車販売データセットがあるとします。販売台数が 1,000 台を超え、販売台数が 100 万台を超えるモデルをフィルタリングしたいと考えています。以下はコード例です。

import pandas as pd

data = {
    '品牌': ['宝马', '奥迪', '奔驰', '大众'],
    '型号': ['X3', 'A6', 'E级', '朗逸'],
    '销售量': [1200, 800, 1500, 900],
    '销售额': [1200, 900, 1800, 800]
}

df = pd.DataFrame(data)
df_filtered = df.query('销售量 > 1000 and 销售额 > 1000000')

print(df_filtered)

上記のコードにより、販売台数が 1,000 台を超え、売上高が 100 万元を超えるモデルを選別することに成功しました。

要約すると、Pandas は、基本的なブールインデックス、loc および iloc メソッドから高度なクエリメソッドや MultiIndex フィルタリングまで、さまざまなシナリオでのデータフィルタリングのニーズを満たすことができる豊富なデータフィルタリング関数とメソッドを提供します。上記のケースは、いくつかの一般的なデータフィルタリング手法とアプリケーションを示しており、実際のアプリケーションで読者に役立つことを願っています。

以上がPandas データフィルタリングの高度なテクニックと実用的なアプリケーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。