ホームページ >バックエンド開発 >Python チュートリアル >Scikit-Learn を使用した Python での機械学習: 初心者ガイド
Python を使用した機械学習について学ぶことに興味がありますか? Scikit-Learn ライブラリ以外に探す必要はありません。この人気のある Python ライブラリは、効率的なデータ マイニング、分析、モデル構築のために設計されています。このガイドでは、Scikit-Learn の基本と、機械学習プロジェクトで Scikit-Learn を使い始める方法を紹介します。
Scikit-Learn とは何ですか?
Scikit-Learn は、データ マイニングと分析のための強力で使いやすいツールです。これは、NumPy、SciPy、Matplotlib などの他の一般的なライブラリの上に構築されています。これはオープンソースであり、商用利用可能な BSD ライセンスを持っているため、誰でもアクセスして使用できます。
Scikit-Learn で何ができるの?
Scikit-Learn は、機械学習の 3 つの主要なタスクに広く使用されています。
1.分類
分類には、オブジェクトがどのカテゴリに属するかを識別することが含まれます。たとえば、メールがスパムかどうかを予測します。
2.回帰
回帰は、関連する独立変数に基づいて連続変数を予測するプロセスです。たとえば、過去の株価を使用して将来の価格を予測します。
3.クラスタリング
クラスタリングでは、類似したオブジェクトを自動的に異なるクラスターにグループ化します。たとえば、購入パターンに基づいて顧客をセグメント化します。
Scikit-Learn をインストールするには?
Windows オペレーティング システムを使用している場合は、Scikit-Learn をインストールするためのステップバイステップ ガイドを次に示します:
https://www.python.org/downloads/ から Python をダウンロードしてインストールします。 「cmd」を検索してターミナルを開き、「python --version」と入力してインストールされているバージョンを確認します。
https://sourceforge.net/projects/numpy/files/NumPy/1.10.2/ からインストーラーをダウンロードして、NumPy をインストールします。
SciPy インストーラーを「SciPy: Scientific Library for Python - SourceForge.net で /scipy/0.16.1 を参照」からダウンロードします。
コマンド ライン ターミナルに python get_pip.py と入力して、Pip をインストールします。
最後に、コマンドラインに pip install scikit-learn と入力して、scikit-learn をインストールします。
Scikit データセットとは何ですか?
Scikit データセットは、ユーザーがモデルを練習およびテストするためにライブラリによって提供される組み込みデータセットです。これらのデータセットの名前は、https://scikit-learn.org/stable/datasets/index.html で確認できます。このガイドでは、ワイン品質 - 赤のデータセットを使用します。これも Kaggle からダウンロードできます。
データセットとモジュールのインポート
Scikit-Learn の使用を開始するには、まず必要なモジュールとデータセットをインポートする必要があります。
pandas モジュールをインポートし、read_csv() メソッドを使用して .csv ファイルを読み取り、pandas DataFrame に変換します。
使用するモジュールは次のとおりです:
トレーニング セットとテスト セット
データをトレーニング セットとテスト セットに分割することは、モデルのパフォーマンスを推定するために重要です。トレーニング セットはアルゴリズムの構築とテストに使用され、テスト セットは予測の精度を評価するために使用されます。
データを分割するには、Scikit-Learn が提供する train_test_split() 関数を使用します。
データの前処理
データの前処理は、モデルの品質を向上させる最初の最も重要なステップです。これには、データを機械学習モデルでの使用に適したものにすることが含まれます。
一般的な前処理手法の 1 つは標準化です。これは、機械学習モデルを適用する前に、入力データの特徴の範囲を標準化します。このために、Scikit-Learn が提供する Transformer API を使用できます。
ハイパーパラメータと相互検証について理解する
ハイパーパラメータは、複雑さや学習率などのより高いレベルの概念であり、データから直接学習することができないため、事前に定義する必要があります。
モデルの汎化パフォーマンスを評価し、過剰適合を回避するには、交差検証が重要な評価手法です。これには、データセットを等しい体積の N 個のランダムな部分に分割することが含まれます。
モデルのパフォーマンスの評価
モデルのトレーニングとテストが完了したら、さまざまな指標を使用してパフォーマンスを評価します。このために、r2_score や means_squared_error などの必要なメトリクスをインポートします。
r2_score 関数は独立変数の従属変数の分散を計算し、mean_squared_error は誤差の二乗の平均を計算します。パフォーマンスが十分であるかどうかを判断するには、モデルの目標を念頭に置くことが重要です。
将来使用するためにモデルを保存することを忘れないでください!
結論として、Python での機械学習に Scikit-Learn を使用する基本を説明しました。このガイドで概説されている手順に従うことで、独自のデータ マイニングおよび分析プロジェクトで Scikit-Learn の調査と使用を開始できます。ユーザーフレンドリーなインターフェイスと幅広い機能を備えた Scikit-Learn は、初心者にも経験豊富なデータ サイエンティストにも同様に強力なツールです。
MyExamCloud で利用できる Python 認定模擬テストを使用して、Python コーディング能力を向上させます。
以上がScikit-Learn を使用した Python での機械学習: 初心者ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。