ホームページ >バックエンド開発 >Python チュートリアル >自動機械学習の Python に相当するコードの説明
###############導入###
機械学習は急速に発展している分野であり、新しいテクノロジーやアルゴリズムが常に登場しています。ただし、機械学習モデルの作成と強化は、高度な専門知識を必要とする、時間のかかる困難な作業になる可能性があります。自動機械学習 (autoML とも呼ばれます) は、特徴量エンジニアリング、ハイパーパラメーター調整、モデル選択などの面倒なタスクの一部を自動化することで、機械学習モデルの作成と最適化のプロセスを簡素化することを目的としています。
auto-sklearn は、Python で最も有名な機械学習ライブラリの 1 つである scikit-learn 上に構築された強力なオープンソースの自動機械学習フレームワークです。ベイジアン最適化とメタ学習を通じて、特定のデータセット上で潜在的な機械学習パイプラインを自動的に検索し、最適なモデルとハイパーパラメーターを自動的に特定します。このチュートリアルでは、インストール、データのインポート、データの準備、モデルの作成とトレーニング、モデルの効果の評価に関するガイダンスを含め、Python での Auto-sklearn の使用方法を紹介します。初心者でも Auto-sklearn を使用すると、強力な機械学習モデルを迅速かつ簡単に作成できます。
自動スクラーン
効率的なオープンソース ソフトウェア プログラム Auto-sklearn を使用して、機械学習モデルの作成と継続的な改善を自動化します。ベイズ最適化とメタ学習を使用して、特定のデータセットの理想的なモデルとハイパーパラメータを自動的に見つけます。メタ学習自体は、よく知られた機械学習プログラム scikit-learn に基づいています。
さらに、Auto-sklearn は、動的統合選択、自動モデル統合、アクティブ学習などの一連の強力な機能も提供します。さらに、モデルの開発、テスト、トレーニングのための使いやすい API も提供します。
AutoML コード
Auto-sklearn を使用して、AutoML コードをさらに詳しく調べてみましょう。 scikit-learn の Digits データセット (手書きの数字のデータセット) を使用します。数字の写真から数字を予測することが目標です。コードは次のとおりです -
プログラム
の中国語訳は次のとおりです:コードの説明
sklearn.datasets からload_digits 関数をインポート: これにより、sklearn.datasets パッケージから MNIST データセットのload_digits 関数がインポートされます。
sklearnからモデルを選択してください。 MNIST データ セットは、ここでインポートされる sklearn.model 選択モジュールのトレーニング テスト分割関数を使用して、トレーニング セットとテスト セットに分割されます。
MNIST データセットがロードされ、入力特徴が X に保存され、対応するラベルが y に保存されます。 X, y =load_digits(return_X_y=True): これにより、MNIST データセットがロードされます。
XX トレーニング セット、セット、テスト セット、再現性を確保するためにランダム シードを 1 に設定
まず、pandas、numpy、sklearn、tpot などの必要なライブラリをコードにインポートします。 Sklearn はデータの前処理、モデルの選択、評価などの機械学習タスクに使用され、Pandas はデータ操作に使用され、NumPy は数値計算に使用されます。 AutoML アルゴリズムを実装する主なライブラリは TPOT です。
次に、pandas の read_csv 関数を使用してデータセットを読み込み、入力フィーチャと出力ラベルを異なる変数に個別に保存します。 「y」変数は出力のラベルを保持し、「X」変数は入力の特徴を格納します。
データを適合させて機械学習モデルを生成するには、コードはまずデータセットを読み込み、次に TPOTRegressor クラスのインスタンスを作成します。 TPOTSRegressor クラスは TPOTBase クラスのサブクラスであり、遺伝的アルゴリズムを使用して機能を選択し、ハイパーパラメーターを調整します。 TPOTRegressor クラスは回帰問題を処理し、TPOTClassifier クラスは分類問題を処理します。
Sklearn のトレーニング-テスト-分割メソッドを使用して、データ セットをトレーニング セットとテスト セットに分割します。機械学習では、データを 2 つのセット (モデルをフィッティングするためのトレーニング セットとモデルのパフォーマンスを評価するためのテスト セット) に分割するのが一般的です。
データが分割されると、TPOTRegressor インスタンスの fit メソッドが呼び出され、トレーニング データに基づいてモデルが調整されます。 Fit テクノロジーでは、遺伝的アルゴリズムを使用して、特定のデータに対する特徴とハイパーパラメーターの最適なサブセットを見つけます。最適なモデルが返されます。
コードは次に、スコアリング方法を使用して、テスト セットでのモデルのパフォーマンスを評価し、モデルの精度を決定します。精度スコアはモデルがデータにどの程度適合しているかを示し、値が 1 に近いほど適合度が高いことを示します。
次に、エクスポート関数を使用して、最良のモデルがテスト セットの精度スコアとともに Python ファイルにエクスポートされます。
###結論は###以上が自動機械学習の Python に相当するコードの説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。