ランダムフォレストアルゴリズムの原理とは何ですか-よくある問題-php.cn

ホームページ

よくある問題

ランダムフォレストアルゴリズムの原理とは何ですか

coldplay.xixi

Aug 19, 2020 pm 02:31 PM

ランダムフォレスト

ランダムフォレストアルゴリズムの原理は次のとおりです: 1. ランダムフォレストアルゴリズムはバギングアルゴリズムを改良したものです; 2. ランダムフォレストは CART デシジョンツリーを弱学習器として使用します; 3. 入力はサンプルセット、および弱分類器は T 回反復されます; 4. 出力は、最終的な強分類器 [f(x)] です。

ランダムフォレストアルゴリズムの原理とは何ですか

#ランダムフォレストアルゴリズムの原理:

1. ランダムフォレストアルゴリズム

RF (Random Forest) アルゴリズムは、Bagging アルゴリズムを改良したものです。

まず第一に、RF は CART 決定木を弱学習器として使用します。これは勾配ブースティングツリー GBDT を思い出させます。

第 2 に、決定木の使用に基づいて、RF は決定木の確立を改善しました。通常の決定木の場合、ノード上の n 個のサンプル特徴すべての中から最適なものを選択します。特徴は分割するために使用されます。デシジョンツリーの左右のサブツリーですが、RF はノード上のサンプル特徴の一部をランダムに選択します。この数は n より小さく、nsub であると仮定し、これらのランダムに選択された nsub (n 未満) サンプル特徴の中から、選択最適な特徴を使用して、デシジョンツリーの左右のサブツリーが分割されます。これにより、モデルの汎化能力がさらに強化されます。

上記 2 点を除けば、RF は通常のバギングアルゴリズムと変わりませんが、RF アルゴリズムの概要を以下に示します。

入力はサンプルセットで、弱分類器の反復数は T です。
出力は最終的な強分類器 f(x)

(1) t = 1,2,3,... の場合,T;

トレーニングセットは t 回目にサンプリングされ、合計 m 回が収集されて、m 個のサンプルを含むサンプリングセット Dt が取得されます。

サンプリングセット Dt を使用してトレーニングしますt 番目の決定木モデル Gt (x) は、決定木モデルのノードを学習するときに、ノード上のすべてのサンプル特徴から一部のサンプル特徴を選択し、これらのランダムに選択されたサンプル特徴の一部から最適な特徴を選択します決定木の左右のサブツリーを分割します。

(2) 分類アルゴリズムによって予測される場合、T 個の弱学習者が最も多くの票を投じたカテゴリまたはカテゴリの 1 つが最終的なカテゴリになります。回帰アルゴリズムの場合、T 個の弱学習器によって取得された回帰結果の算術平均が最終的なモデル出力になります。

2. ランダムフォレストの推進

RF は分類問題だけでなく、特徴変換や外れ値検出などにも使用されます。

2.1 エクストラツリー

エクストラツリーは RF の変形です。原理は RF とほぼ同じです。唯一の違いは次のとおりです:

(1) トレーニング用各デシジョンツリーの場合、RF はランダムサンプリングブートストラップを使用して、各デシジョンツリーのトレーニングセットとしてサンプリングセットを選択しますが、エクストラツリーは通常、ランダムサンプリング、つまり各デシジョンツリーで使用される元のトレーニングセットを使用しません。

(2) 分割特徴量を選択した後、RF デシジョンツリーはジニ係数や平均二乗誤差などの原則に基づいて最適な特徴分割点を選択します。これは従来のデシジョンツリーと同じです。しかし、エクストラツリーはより根本的なもので、特徴量をランダムに選択してデシジョンツリーを分割します。

2.2 Totally Random Trees Embedding

Totally Random Trees Embedding (以下、TRTE) は教師なし学習データ変換手法です。低次元のデータセットを高次元にマッピングするため、高次元にマッピングされたデータを分類モデルや回帰モデルでより適切に使用できるようになります。サポートベクターマシンではカーネルメソッドが低次元のデータセットを高次元にマッピングするために使用されていることが知られていますが、ここでは TRTE が別のメソッドを提供します。

TRTE は、データ変換プロセスで RF と同様の方法を使用して、データに適合する T 個の決定木を確立します。決定木が確立された後、データセット内の各データの T 決定木内の葉ノードの位置も決定されます。たとえば、3 つの決定木があり、各決定木には 5 つのリーフノードがあります。あるデータ特徴 x は、最初の決定木の 2 番目のリーフノード、2 番目の決定木の 3 番目のリーフノード、および 3 番目のリーフノードに分割されます。 2 番目の決定木の 3 つの決定木の 5 番目の葉ノード。 x マッピング後の特徴コードは (0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1) となり、15 次元の高次元特徴を持ちます。ここでは、3 つのデシジョンツリーのそれぞれのサブコーディングを強調するために、特徴次元の間にスペースが追加されています。

高次元の特徴にマッピングした後は、教師あり学習のさまざまな分類および回帰アルゴリズムを引き続き使用できます。

3. ランダムフォレストのまとめ

ようやくRFのアルゴリズム原理が説明されましたが、高度な並列化が可能なアルゴリズムとしてRFが挙げられます。データを使ってやるべきことはたくさんあります。

RF の主な利点は次のとおりです。

1) トレーニングを高度に並列化できるため、ビッグデータ時代における大規模サンプルのトレーニング速度に利点があります。個人的にはこれが一番のメリットだと思います。

2) 決定木のノードをランダムに選択して特徴を分割できるため、サンプル特徴の次元が非常に高い場合でもモデルを効率的にトレーニングできます。

3) トレーニング後、出力に対する各特徴の重要性を与えることができます。

4) ランダムサンプリングの使用により、トレーニングされたモデルは分散が小さく、強い汎化能力を備えています。

5) Boosting シリーズの Adaboost や GBDT と比較して、RF の実装は比較的簡単です。

6) 欠落している機能には鈍感です。

RF の主な欠点は次のとおりです:

1) 比較的大きなノイズを持つ特定のサンプルセットでは、RF モデルは過剰適合する傾向があります。