ホームページ > 記事 > バックエンド開発 > Python のランダムフォレスト技術とは何ですか?

Python のランダムフォレスト技術とは何ですか?

WBOYオリジナル: 2023-06-04 21:51:172232ブラウズ

Python のランダムフォレスト手法とは何ですか?

ランダムフォレストは、分類や回帰などの問題に適用できる強力なアンサンブル学習アルゴリズムです。集団的な意思決定方法で精度と堅牢性を向上させるために、複数のデシジョンツリーで構成されます。ランダムフォレストの構築に必要な Python ライブラリの依存関係には、scikit-learn (sklearn) を使用するランダムフォレストパッケージが含まれます。

ランダムフォレストとは何ですか?

ランダムフォレストは、データセットでトレーニングすることによって出力変数の値を予測する教師あり学習モデルです。連続または離散出力変数を処理します。ランダムフォレストは複数のデシジョンツリーで構成されます。変数と構築された分割点上の分割点をランダムに選択します。

ランダムフォレストの利点は何ですか?

ランダムフォレストには、現代のデータサイエンスで最も人気のある予測手法の 1 つとなっている重要な利点がいくつかあります。

高精度: ランダムフォレストは、多くの場合、他の機械学習手法よりも優れています。アルゴリズムの精度が高くなります。データの欠落や不確実性の処理に優れています。
大規模なデータセットに最適: ランダムフォレストは、システムリソースをより効率的に消費する自然なアンサンブル構造を備えているため、大規模なデータサイエンスの問題に対して非常にうまく拡張できます。
複数の変数タイプを処理可能: ランダムフォレストはデータタイプや変数タイプに制限されません。
特徴の重要性を判断できる: ランダムフォレストは、データセット内の各変数がモデルに与える影響を測定し、変数の重要性に基づいてデータ内の最も顕著な傾向とパターンを推測できます。

Python を使用してランダムフォレストを実装するにはどうすればよいですか?

ランダムフォレストの実装には、Python ライブラリ scikit-learn (sklearn) のインストールが必要です。インストール手順は次のとおりです。

pip install scikit-learn

インストール後、sklearn ライブラリによって提供される API を使用して、ランダムフォレストを実装できます。

この前に、必要なライブラリをロードする必要があります:

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

一般的に、ランダムフォレストモデルをトレーニングし、それを予測に使用するには、次の 4 つの手順を実行できます。

データのロード

このコード例では、scikit-learn の組み込み Iris データセットを使用します。

def load_data():
    data = load_iris()
    return data.data, data.target

モデルを構築します

#このステップでは、RandomForestClassifier クラスを使用してランダムフォレスト分類器を構築します。

n_estimatorsこのパラメーターはフォレスト内の木の数を定義します。各木はランダムなサンプルと変数を使用してトレーニングされます。選択する推奨されるツリーの数は、特定の問題のサイズによって異なります。この数を超えるとトレーニング時間が長くなり、ツリーが少なすぎるとモデルが過学習になる可能性があります:

def create_model():
    model = RandomForestClassifier(n_estimators=100,
                                   max_depth=3,
                                   random_state=0)
    return model

この例では、ツリーの数を 100 に選択し、サイズに応じて深さを選択します。データセットの。過学習を避けるために、max_ Depth を 3 に設定します。

モデルをフィッティングして評価する前に、データセットをトレーニングセットとテストセットに分割する必要があります。この例では、トレーニングデータの 70% をモデルのトレーニングに使用し、残りの 30% をモデルの評価に使用します。

def train_test_split_data(X, y, test_size=0.3):
    return train_test_split(X, y, test_size=test_size, random_state=0)

このステップでは、トレーニングとテストに分割データを使用します。

fit() メソッドを使用してモデルをトレーニングし、テストデータを使用してモデルの精度を評価します。

def train_model(model, X_train, y_train):
    model.fit(X_train, y_train)
    return model

def evaluate_model(model, X_test, y_test):
    accuracy = model.score(X_test, y_test)
    return accuracy

完全なコードは次のとおりです。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def load_data():
    data = load_iris()
    return data.data, data.target

def create_model():
    model = RandomForestClassifier(n_estimators=100,
                                    max_depth=3,
                                    random_state=0)
    return model

def train_test_split_data(X, y, test_size=0.3):
    return train_test_split(X, y, test_size=test_size, random_state=0)

def train_model(model, X_train, y_train):
    model.fit(X_train, y_train)
    return model

def evaluate_model(model, X_test, y_test):
    accuracy = model.score(X_test, y_test)
    return accuracy

if __name__ == "__main__":
    X, y = load_data()
    X_train, X_test, y_train, y_test = train_test_split_data(X, y)
    model = create_model()
    trained_model = train_model(model, X_train, y_train)
    accuracy = evaluate_model(trained_model, X_test, y_test)
    print("Accuracy:", accuracy)

結論

Python でランダムフォレストを実装する手順には、データの読み込み、モデルの構築、データの分割、モデルのトレーニングと評価が含まれます。ランダムフォレストモデルを使用すると、分類および回帰問題を効率的に解決し、複数の変数タイプの処理をサポートできます。ランダムフォレストは非常に柔軟性があるため、幅広いアプリケーションシナリオに適応できます。

以上がPython のランダムフォレスト技術とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python で MongoDB を使用するにはどうすればよいですか?次の記事：Python で MongoDB を使用するにはどうすればよいですか?

続きを見る

Python のランダム フォレスト技術とは何ですか?

関連記事

Python のランダムフォレスト技術とは何ですか?