ML モデルのデータ前処理手法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

ML モデルのデータ前処理手法

DDD

Dec 03, 2024 am 10:39 AM

Data Preprocessing Techniques for ML Models

データの前処理とは、データセットを機械学習やその他のタスクに使用する前に、データセットに対して特定のアクションやステップを実行する行為です。データの前処理には、品質を向上させるため、または主な目的 (この場合はモデルのトレーニング) に適していることを確認するために、データのクリーニング、フォーマット、または変換が含まれます。クリーンで高品質なデータセットは、機械学習モデルのパフォーマンスを向上させます。

低品質のデータに関する一般的な問題には次のようなものがあります。

欠損値
一貫性のない形式
値が重複しています
無関係な機能

この記事では、モデルのトレーニングで使用するデータセットを準備するための一般的なデータ前処理手法をいくつか紹介します。 Python の基本的な知識と、Python ライブラリとフレームワークの使用方法が必要です。

要件:
このガイドを最大限に活用するには、次のことが必要です

Python 3.12
Jupyter Notebook またはお気に入りのノートブック
でこぼこ
パンダ
シピー
Scikit の学習
メルボルンの住宅データセット

Github 上のこれらの Jupyter ノートブックで各コードの出力をチェックアウトすることもできます。

設定

Python をまだインストールしていない場合は、Python Web サイトからダウンロードし、指示に従ってインストールできます。

Python がインストールされたら、必要なライブラリをインストールします

pip install numpy scipy pandas scikit-learn

Jupyter Notebook をインストールします。

pip install notebook

インストール後、次のコマンドで Jupyter Notebook を起動します

jupyter notebook

これにより、デフォルトの Web ブラウザで Jupyter Notebook が起動します。そうでない場合は、ブラウザに手動で貼り付けることができるリンクがあるかターミナルを確認してください。

[ファイル] メニューから新しいノートブックを開き、必要なライブラリをインポートしてセルを実行します

import numpy as np
import pandas as pd
import scipy
import sklearn

メルボルン住宅データセットサイトに移動し、データセットをダウンロードします。次のコードを使用して、データセットをノートブックに読み込みます。コンピューター上のファイルパスをコピーして、read_csv 関数に貼り付けることができます。以下に示すように、csv ファイルをノートブックと同じフォルダーに配置し、ファイルをインポートすることもできます。

data = pd.read_csv(r"melb_data.csv")

# View the first 5 columns of the dataset
data.head()

データをトレーニングセットと検証セットに分割します

from sklearn.model_selection import train_test_split

# Set the target
y = data['Price']

# Firstly drop categorical data types
melb_features = data.drop(['Price'], axis=1) #drop the target column

X = melb_features.select_dtypes(exclude=['object'])

# Divide data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

データ漏洩を防ぐために、データをトレーニングセットと検証セットに分割する必要があります。結果として、トレーニング特徴セットに対して実行する前処理手法は、検証特徴セットに対して実行するものと同じになります。

これでデータセットを処理する準備ができました!

データクリーニング

欠損値の処理
データセット内の欠損値は、ドレスを縫うために使用されるはずの布地の穴のようなものです。それはドレスを作る前から台無しにしてしまいます。

データセット内の欠損値を処理するには 3 つの方法があります。

空のセルを含む行または列を削除します

pip install numpy scipy pandas scikit-learn

この方法の問題は、モデルのトレーニングに使用する貴重な情報が失われる可能性があることです。削除された行または列のほとんどの値が欠落していない限り、空のセルを含む行または列を削除する必要はありません。

空のセルに値を入力します空のセルに、その特定の列のデータの平均値、中央値、または最頻値を代入したり埋めることができます。 Scikit learn の SimpleImputer は、空のセルに値を代入するために使用されます。

pip install notebook

入力と通知これがどのように機能するかというと、空のセルに値を入力しますが、そのセルが最初は空であったことを示す列も作成します。

jupyter notebook

重複の削除
重複したセルはデータが繰り返されていることを意味し、モデルの精度に影響します。それらに対処する唯一の方法は、それらをドロップすることです。

import numpy as np
import pandas as pd
import scipy
import sklearn

外れ値への対処
外れ値は、データセット内の他の値と大きく異なる値です。他のデータ値と比較して、異常に高いか低い場合があります。これらは入力エラーによって発生する可能性もあれば、本当に外れ値である可能性もあります。

外れ値に対処することが重要です。そうしないと、不正確なデータ分析やモデルが作成されてしまいます。外れ値を検出する方法の 1 つは、Z スコアを計算することです。

その仕組みは、Z スコアを使用して、データポイントが平均値から 3 ポイント以上離れているかどうかを確認することです。この計算はすべてのデータポイントに対して実行されます。データポイントの Z スコアが 3 以上の値である場合、そのデータポイントは外れ値です。

data = pd.read_csv(r"melb_data.csv")

# View the first 5 columns of the dataset
data.head()

データ変換

正規化
特徴を正規化して、正規分布として記述できるようにします。

正規分布 (ガウス分布としても知られる) は、平均値の上下にほぼ等しい距離または分布がある統計的分布です。正規分布データのデータポイントのグラフは、釣鐘曲線を形成します。

データを正規化するポイントは、使用したい機械学習アルゴリズムがデータが正規分布していると仮定しているかどうかです。例としては、ガウス単純ベイズモデルがあります。

from sklearn.model_selection import train_test_split

# Set the target
y = data['Price']

# Firstly drop categorical data types
melb_features = data.drop(['Price'], axis=1) #drop the target column

X = melb_features.select_dtypes(exclude=['object'])

# Divide data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

標準化
標準化では、データセットの特徴が平均 0、標準偏差 1 になるように変換されます。このプロセスでは、データ全体で同様の範囲になるように各特徴がスケーリングされます。これにより、各機能がモデルのトレーニングに均等に寄与することが保証されます。

次の場合に標準化を使用します。

データ内の特徴はスケールまたは単位が異なります。
使用したい機械学習モデルは、距離または勾配ベースの最適化 (線形回帰、ロジスティック回帰、K 平均法クラスタリングなど) に基づいています。

機能を標準化するには、sklearn ライブラリの StandardScaler() を使用します。

pip install numpy scipy pandas scikit-learn

結論

データの前処理は単なる準備段階ではありません。これは、正確な機械学習モデルを構築するプロセスの一部です。作業しているデータセットのニーズに合わせて調整することもできます。

ほとんどのアクティビティと同様、練習すれば完璧になります。データの前処理を続けると、モデルだけでなくスキルも向上します。

これについてのあなたのご意見をぜひ読みたいです?

以上がML モデルのデータ前処理手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

Python vs. C：開発者の長所と短所Apr 17, 2025 am 12:04 AM

Pythonは迅速な開発とデータ処理に適していますが、Cは高性能および基礎となる制御に適しています。 1）Pythonは、簡潔な構文を備えた使いやすく、データサイエンスやWeb開発に適しています。 2）Cは高性能で正確な制御を持ち、ゲームやシステムのプログラミングでよく使用されます。

Python：時間のコミットメントと学習ペースApr 17, 2025 am 12:03 AM

Pythonを学ぶのに必要な時間は、人によって異なり、主に以前のプログラミングの経験、学習の動機付け、学習リソースと方法、学習リズムの影響を受けます。現実的な学習目標を設定し、実用的なプロジェクトを通じて最善を尽くします。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

See all articles