ホームページ >バックエンド開発 >Python チュートリアル >Pythonで決定木アルゴリズムを実装する原理と実装方法

Pythonで決定木アルゴリズムを実装する原理と実装方法

决策树算法原理 Python实现决策树算法

デシジョンツリーアルゴリズムは教師あり学習アルゴリズムのカテゴリに属し、連続的およびカテゴリカルな出力変数に適しており、通常、分類および回帰問題を解決するために使用されます。

デシジョンツリーはフローチャートに似たツリー構造で、各内部ノードが属性のテストを表し、各ブランチがテストの結果を表し、各ノードがクラスラベルに対応します。

トレーニングセット全体をルートとして扱うことから始めます。

情報獲得の場合、属性はカテゴリカルであると想定され、Gini インデックスの場合、属性は連続的であると想定されます。

レコードは属性値に基づいて再帰的に分散されます。

統計手法を使用して属性をルートノードに並べ替えます。

最適な属性を見つけて、ツリーのルートノードに配置します。

次に、データセットのトレーニングセットをサブセットに分割します。サブセットを作成するときは、トレーニングデータセットのすべてのサブセットが同じ属性値を持つようにしてください。

各サブセットで 1 と 2 を繰り返して、すべてのブランチのリーフノードを見つけます。

構築と操作の 2 つの段階が必要です:

構築段階、データセットの前処理。 Python sklearn パッケージを使用して、データセットをトレーニングとテストから分割します。分類器をトレーニングします。

運用フェーズでは、予測を行います。計算精度。

データのインポートでは、データをインポートして操作するために、Python で提供される pandas パッケージを使用します。

ここでは、URL を使用して、データセットをダウンロードせずに UCI サイトから直接データセットを取得します。システム上でこのコードを実行しようとするときは、システムにアクティブなインターネット接続があることを確認してください。

データセットは「,」で区切られているため、sep パラメータの値を次のように渡す必要があります。

もう 1 つ注意すべき点は、データセットにはヘッダーが含まれていないため、Header パラメーターの値を none として渡します。 header パラメーターを渡さない場合、データセットの最初の行がヘッダーと見なされます。

データスライスでは、モデルをトレーニングする前に、データセットをトレーニングデータセットとテストデータセットに分割する必要があります。

トレーニングとテストのためにデータセットを分割するには、sklearn モジュール train_test_split を使用しました

まず、データセット内の属性からターゲット変数を分離する必要があります。

X=balance_data.values[:,1:5]
Y=balance_data.values[:,0]

上記は、データセットを分割するコード行です。変数 X には属性が含まれ、変数 Y にはデータセットのターゲット変数が含まれます。

次のステップは、トレーニングとテストの目的でデータセットを分割することです。

X_train,X_test,y_train,y_test=train_test_split(
X,Y,test_size=0.3,random_state=100)

前の行では、トレーニングとテスト用にデータセットを分割しています。データセットをトレーニングとテストの間で 70:30 の比率で分割しているため、test_size パラメーターの値を 0.3 として渡します。

random_state 変数は、ランダムサンプリングに使用される擬似乱数生成器の状態です。

以上がPythonで決定木アルゴリズムを実装する原理と実装方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は163.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

続きを見る

関連記事