ホームページ  >  記事  >  ランダムフォレストアルゴリズムの原理とは何ですか

ランダムフォレストアルゴリズムの原理とは何ですか

coldplay.xixi
coldplay.xixiオリジナル
2020-08-19 14:31:239650ブラウズ

ランダム フォレスト アルゴリズムの原理は次のとおりです: 1. ランダム フォレスト アルゴリズムはバギング アルゴリズムを改良したものです; 2. ランダム フォレストは CART デシジョン ツリーを弱学習器として使用します; 3. 入力はサンプル セット、および弱分類器は T 回反復されます; 4. 出力は、最終的な強分類器 [f(x)] です。

ランダムフォレストアルゴリズムの原理とは何ですか

#ランダム フォレスト アルゴリズムの原理:

1. ランダム フォレスト アルゴリズム

RF (Random Forest) アルゴリズムは、Bagging アルゴリズムを改良したものです。

まず第一に、RF は CART 決定木を弱学習器として使用します。これは勾配ブースティング ツリー GBDT を思い出させます。

第 2 に、決定木の使用に基づいて、RF は決定木の確立を改善しました。通常の決定木の場合、ノード上の n 個のサンプル特徴すべての中から最適なものを選択します。特徴は分割するために使用されます。デシジョン ツリーの左右のサブツリーですが、RF はノード上のサンプル特徴の一部をランダムに選択します。この数は n より小さく、nsub であると仮定し、これらのランダムに選択された nsub (n 未満) サンプル特徴の中から、選択 最適な特徴を使用して、デシジョン ツリーの左右のサブツリーが分割されます。これにより、モデルの汎化能力がさらに強化されます。

上記 2 点を除けば、RF は通常のバギング アルゴリズムと変わりませんが、RF アルゴリズムの概要を以下に示します。


  • 入力はサンプル セットで、弱分類器の反復数は T です。

  • 出力は最終的な強分類器 f(x)

(1) t = 1,2,3,... の場合,T;

トレーニング セットは t 回目にサンプリングされ、合計 m 回が収集されて、m 個のサンプルを含むサンプリング セット Dt が取得されます。

サンプリング セット Dt を使用してトレーニングしますt 番目の決定木モデル Gt (x) は、決定木モデルのノードを学習するときに、ノード上のすべてのサンプル特徴から一部のサンプル特徴を選択し、これらのランダムに選択されたサンプル特徴の一部から最適な特徴を選択します決定木の左右のサブツリーを分割します。

(2) 分類アルゴリズムによって予測される場合、T 個の弱学習者が最も多くの票を投じたカテゴリまたはカテゴリの 1 つが最終的なカテゴリになります。回帰アルゴリズムの場合、T 個の弱学習器によって取得された回帰結果の算術平均が最終的なモデル出力になります。

2. ランダム フォレストの推進

RF は分類問題だけでなく、特徴変換や外れ値検出などにも使用されます。

2.1 エクストラ ツリー

エクストラ ツリーは RF の変形です。原理は RF とほぼ同じです。唯一の違いは次のとおりです:

(1) トレーニング用各デシジョン ツリーの場合、RF はランダム サンプリング ブートストラップを使用して、各デシジョン ツリーのトレーニング セットとしてサンプリング セットを選択しますが、エクストラ ツリーは通常、ランダム サンプリング、つまり各デシジョン ツリーで使用される元のトレーニング セットを使用しません。

(2) 分割特徴量を選択した後、RF デシジョン ツリーはジニ係数や平均二乗誤差などの原則に基づいて最適な特徴分割点を選択します。これは従来のデシジョン ツリーと同じです。しかし、エクストラ ツリーはより根本的なもので、特徴量をランダムに選択してデシジョン ツリーを分割します。

2.2 Totally Random Trees Embedding

Totally Random Trees Embedding (以下、TRTE) は教師なし学習データ変換手法です。低次元のデータ セットを高次元にマッピングするため、高次元にマッピングされたデータを分類モデルや回帰モデルでより適切に使用できるようになります。サポート ベクター マシンではカーネル メソッドが低次元のデータ セットを高次元にマッピングするために使用されていることが知られていますが、ここでは TRTE が別のメソッドを提供します。

TRTE は、データ変換プロセスで RF と同様の方法を使用して、データに適合する T 個の決定木を確立します。決定木が確立された後、データセット内の各データの T 決定木内の葉ノードの位置も決定されます。たとえば、3 つの決定木があり、各決定木には 5 つのリーフ ノードがあります。あるデータ特徴 x は、最初の決定木の 2 番目のリーフ ノード、2 番目の決定木の 3 番目のリーフ ノード、および 3 番目のリーフ ノードに分割されます。 2 番目の決定木の 3 つの決定木の 5 番目の葉ノード。 x マッピング後の特徴コードは (0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1) となり、15 次元の高次元特徴を持ちます。ここでは、3 つのデシジョン ツリーのそれぞれのサブコーディングを強調するために、特徴次元の間にスペースが追加されています。

高次元の特徴にマッピングした後は、教師あり学習のさまざまな分類および回帰アルゴリズムを引き続き使用できます。

3. ランダムフォレストのまとめ

ようやくRFのアルゴリズム原理が説明されましたが、高度な並列化が可能なアルゴリズムとしてRFが挙げられます。データを使ってやるべきことはたくさんあります。

RF の主な利点は次のとおりです。

1) トレーニングを高度に並列化できるため、ビッグデータ時代における大規模サンプルのトレーニング速度に利点があります。個人的にはこれが一番のメリットだと思います。

2) 決定木のノードをランダムに選択して特徴を分割できるため、サンプル特徴の次元が非常に高い場合でもモデルを効率的にトレーニングできます。

3) トレーニング後、出力に対する各特徴の重要性を与えることができます。

4) ランダムサンプリングの使用により、トレーニングされたモデルは分散が小さく、強い汎化能力を備えています。

5) Boosting シリーズの Adaboost や GBDT と比較して、RF の実装は比較的簡単です。

6) 欠落している機能には鈍感です。

RF の主な欠点は次のとおりです:

1) 比較的大きなノイズを持つ特定のサンプルセットでは、RF モデルは過剰適合する傾向があります。

2) より多くの値の分割を持つ特徴は、RF の意思決定に大きな影響を与える可能性があり、それによって適合モデルの効果に影響を与えます。

以上がランダムフォレストアルゴリズムの原理とは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。