Heim  >  Artikel  >  Was ist das Prinzip des Random-Forest-Algorithmus?

Was ist das Prinzip des Random-Forest-Algorithmus?

coldplay.xixi
coldplay.xixiOriginal
2020-08-19 14:31:239609Durchsuche

Das Prinzip des Random-Forest-Algorithmus ist: 1. Der Random-Forest-Algorithmus ist eine Verbesserung des Bagging-Algorithmus. 2. Der Random-Forest-Algorithmus verwendet den CART-Entscheidungsbaum als schwachen Lerner die Anzahl der Iterationen des schwachen Klassifikators ist T 4 , die Ausgabe ist der endgültige starke Klassifikator [f(x)].

Was ist das Prinzip des Random-Forest-Algorithmus?

Das Prinzip des Random Forest-Algorithmus ist:

1. Random Forest-Algorithmus

 Der RF-Algorithmus (Random Forest) ist eine Verbesserung des Bagging-Algorithmus.

Erstens verwendet RF den CART-Entscheidungsbaum als schwachen Lerner, der uns an den Gradient Boosting Tree GBDT erinnert.

Zweitens hat RF durch die Verwendung von Entscheidungsbäumen die Erstellung von Entscheidungsbäumen verbessert. Für gewöhnliche Entscheidungsbäume wählen wir ein optimales Merkmal aus allen n Beispielmerkmalen auf dem Knoten aus, um Entscheidungen zu treffen Der Baum wird geteilt, aber ein Teil der Stichprobenmerkmale auf dem Knoten wird von RF zufällig ausgewählt. Diese Zahl ist kleiner als n, vorausgesetzt, dass nsub vorhanden sind, und dann ist unter diesen zufällig ausgewählten nsub (weniger als n) Stichprobenmerkmalen ein optimales Ausgewählte Merkmale werden verwendet, um die linken und rechten Teilbäume des Entscheidungsbaums zu unterteilen. Dadurch wird die Generalisierungsfähigkeit des Modells weiter verbessert.

Mit Ausnahme der beiden oben genannten Punkte unterscheidet sich RF nicht vom normalen Bagging-Algorithmus. Das Folgende ist eine kurze Zusammenfassung des RF-Algorithmus.

  • Die Eingabe ist der Stichprobensatz und die Anzahl der Iterationen des schwachen Klassifikators ist T.

  • Die Ausgabe ist der endgültige starke Klassifikator f(x)

   (1) Für t = 1,2,3,...,T;

Probe den Trainingssatz zum t-ten Mal ab und sammle ihn Insgesamt wird ein Stichprobensatz Dt mit m Stichproben erhalten. Verwenden Sie den Stichprobensatz Dt, um das t-te Entscheidungsbaummodell Gt(x) zu trainieren. Wählen Sie einen Teil von allen aus Stichprobenmerkmale auf dem Knoten. Wählen Sie unter diesen zufällig ausgewählten Teilstichprobenmerkmalen ein optimales Merkmal aus, um den linken und rechten Teilbaum des Entscheidungsbaums zu unterteilen.

  (2) Wenn dies durch einen Klassifizierungsalgorithmus vorhergesagt wird, ist die Kategorie oder eine der Kategorien, in der die T-schwachen Lernenden die meisten Stimmen abgegeben haben, die endgültige Kategorie. Wenn es sich um einen Regressionsalgorithmus handelt, ist der arithmetische Durchschnitt der von T schwachen Lernenden erhaltenen Regressionsergebnisse die endgültige Modellausgabe.

2. Förderung von Random Forest

RF wird nicht nur für Klassifizierungsprobleme, sondern auch zur Merkmalsumwandlung, Ausreißererkennung usw. verwendet.

2.1 Extra-Bäume

Extra-Bäume sind eine Variante von RF. Das Prinzip ist fast das gleiche wie bei RF. Der einzige Unterschied ist:

  (1) Für das Training jedes Entscheidungsbaums verwendet RF Zufallsstichproben-Bootstrap Stichprobensatz als Der Trainingssatz jedes Entscheidungsbaums, während zusätzliche Bäume im Allgemeinen keine Zufallsstichprobe verwenden, dh den ursprünglichen Trainingssatz, der von jedem Entscheidungsbaum verwendet wird.

  (2) Nach der Auswahl der Teilungsmerkmale wählt der RF-Entscheidungsbaum einen optimalen Merkmalsteilungspunkt basierend auf Prinzipien wie dem Gini-Koeffizienten und dem mittleren quadratischen Fehler aus, der mit dem herkömmlichen Entscheidungsbaum identisch ist. Aber zusätzliche Bäume sind radikaler. Sie wählen zufällig einen Merkmalswert aus, um den Entscheidungsbaum zu teilen.

2.2 Totally Random Trees Embedding

  Totally Random Trees Embedding (im Folgenden als TRTE bezeichnet) ist eine unbeaufsichtigte Lerndatentransformationsmethode. Es ordnet niedrigdimensionale Datensätze hohen Dimensionen zu, sodass Daten, die hohen Dimensionen zugeordnet sind, besser in Klassifizierungs- und Regressionsmodellen verwendet werden können. Wir wissen, dass die Kernel-Methode in Support-Vektor-Maschinen verwendet wird, um niedrigdimensionale Datensätze auf hohe Dimensionen abzubilden. Hier bietet TRTE eine weitere Methode.

 TRTE verwendet im Datentransformationsprozess auch eine RF-ähnliche Methode, um T-Entscheidungsbäume entsprechend den Daten zu erstellen. Nachdem der Entscheidungsbaum erstellt wurde, wird auch die Position der Blattknoten in den T-Entscheidungsbäumen für alle Daten im Datensatz bestimmt. Zum Beispiel haben wir 3 Entscheidungsbäume, jeder Entscheidungsbaum hat 5 Blattknoten. Ein bestimmtes Datenmerkmal x ist in den 2. Blattknoten des ersten Entscheidungsbaums, den 3. Blattknoten des zweiten Entscheidungsbaums und den 3. Blattknoten unterteilt des zweiten Entscheidungsbaums. Der fünfte Blattknoten von drei Entscheidungsbäumen. Dann lautet der Merkmalscode nach der x-Zuordnung (0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1) mit 15-dimensionalen hochdimensionalen Merkmalen. Zwischen den Merkmalsdimensionen werden hier Leerzeichen eingefügt, um die Untercodierung jedes der drei Entscheidungsbäume hervorzuheben.

 Nach der Zuordnung zu hochdimensionalen Merkmalen können Sie weiterhin verschiedene Klassifizierungs- und Regressionsalgorithmen des überwachten Lernens verwenden.

3. Zusammenfassung von Random Forest

Als Algorithmus, der hochgradig parallelisiert werden kann, hat RF großes Potenzial für Big Data.

Die Hauptvorteile von RF sind:

  1) Das Training kann hochgradig parallelisiert werden, was im Big-Data-Zeitalter Vorteile bei der Trainingsgeschwindigkeit bei großen Stichproben hat. Persönlich denke ich, dass dies der Hauptvorteil ist.

  2) Da die Knoten des Entscheidungsbaums zufällig ausgewählt werden können, um Features zu unterteilen, kann das Modell auch dann noch effizient trainiert werden, wenn die Dimension der Stichprobenmerkmale sehr hoch ist.

  3) Nach dem Training kann die Bedeutung jedes Merkmals für die Ausgabe angegeben werden

  4) Aufgrund der Verwendung von Zufallsstichproben weist das trainierte Modell eine geringe Varianz und eine starke Generalisierungsfähigkeit auf.

  5) Im Vergleich zu Adaboost und GBDT der Boosting-Serie ist die RF-Implementierung relativ einfach.

  6) Unempfindlich gegenüber fehlenden Funktionen.

Die Hauptnachteile von RF sind:

  1) Bei bestimmten Stichprobensätzen mit relativ großem Rauschen neigt das RF-Modell zur Überanpassung.

  2) Features mit mehr Wertunterteilungen haben wahrscheinlich einen größeren Einfluss auf die RF-Entscheidungsfindung und wirken sich somit auf die Wirkung des angepassten Modells aus.

Das obige ist der detaillierte Inhalt vonWas ist das Prinzip des Random-Forest-Algorithmus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn