Heim >Technologie-Peripheriegeräte >KI >Definition, Klassifizierung und Algorithmusrahmen des Reinforcement Learning

Definition, Klassifizierung und Algorithmusrahmen des Reinforcement Learning

PHPz
PHPznach vorne
2024-01-24 09:30:07698Durchsuche

Definition, Klassifizierung und Algorithmusrahmen des Reinforcement Learning

Reinforcement Learning (RL) ist ein maschineller Lernalgorithmus zwischen überwachtem Lernen und unüberwachtem Lernen. Es löst Probleme durch Versuch und Irrtum und Lernen. Während des Trainings trifft das verstärkende Lernen eine Reihe von Entscheidungen und wird basierend auf den durchgeführten Aktionen belohnt oder bestraft. Das Ziel besteht darin, die Gesamtbelohnung zu maximieren. Reinforcement Learning hat die Fähigkeit, autonom zu lernen und sich anzupassen und in dynamischen Umgebungen optimierte Entscheidungen zu treffen. Im Vergleich zum herkömmlichen überwachten Lernen eignet sich Verstärkungslernen besser für Probleme ohne klare Bezeichnungen und kann bei langfristigen Entscheidungsproblemen gute Ergebnisse erzielen.

Im Kern geht es beim Reinforcement Learning um die Durchsetzung von Aktionen auf der Grundlage der vom Agenten ausgeführten Aktionen, die auf der Grundlage der positiven Auswirkungen ihrer Aktionen auf ein Gesamtziel belohnt werden.

Es gibt zwei Haupttypen von Reinforcement-Learning-Algorithmen:

Modellbasierte vs. modellfreie Lernalgorithmen

Modellbasierte Algorithmen

Modellbasierte Algorithmen verwenden Transformations- und Belohnungsfunktionen, um Schätzen Sie die optimale Politik. Beim modellbasierten Verstärkungslernen hat der Agent Zugriff auf ein Modell der Umgebung, d. h. auf die Aktionen, die er ausführen muss, um von einem Zustand in einen anderen zu gelangen, die damit verbundenen Wahrscheinlichkeiten und die entsprechenden Belohnungen. Sie ermöglichen es Agenten des verstärkenden Lernens, vorauszuplanen, indem sie vorausschauend denken.

Modellfreier Algorithmus

Der modellfreie Algorithmus dient dazu, die optimale Strategie zu finden, wenn das Verständnis der Umgebungsdynamik sehr begrenzt ist. Es gibt keine Übergänge oder Anreize, die beste Politik zu beurteilen. Die optimale Richtlinie wird direkt empirisch geschätzt, d. h. nur die Interaktion zwischen dem Agenten und der Umgebung, ohne Hinweis auf die Belohnungsfunktion.

Modellfreies Verstärkungslernen sollte auf Szenarien mit unvollständigen Umgebungsinformationen angewendet werden, wie z. B. selbstfahrende Autos. In diesem Fall sind modellfreie Algorithmen anderen Techniken überlegen.

Das am häufigsten verwendete Algorithmus-Framework für verstärkendes Lernen

Markov-Entscheidungsprozess (MDP)

Der Markov-Entscheidungsprozess ist ein verstärkender Lernalgorithmus, der uns formalisierte sequentielle Entscheidungsmethoden bietet. Diese Formalisierung ist die Grundlage für die Probleme, die durch Verstärkungslernen gelöst werden. Die an einem Markov-Entscheidungsprozess (MDP) beteiligte Komponente ist ein Entscheidungsträger, ein sogenannter Agent, der mit seiner Umgebung interagiert.

Bei jedem Zeitstempel erhält der Agent eine Darstellung des Zustands der Umgebung. Aufgrund dieser Darstellung wählt der Agent eine auszuführende Aktion aus. Die Umgebung geht dann in einen neuen Zustand über und der Agent wird für seine vorherigen Aktionen belohnt. Beim Markov-Entscheidungsprozess ist zu beachten, dass er sich nicht um unmittelbare Belohnungen kümmert, sondern vielmehr darauf abzielt, die Gesamtbelohnung über den gesamten Verlauf zu maximieren.

Bellman-Gleichung

Bellman-Gleichung ist eine Art Reinforcement-Learning-Algorithmus, der sich besonders für deterministische Umgebungen eignet. Der Wert eines bestimmten Zustands wird durch die maximale Aktion bestimmt, die der Agent in dem Zustand ausführen kann, in dem er sich befindet. Der Zweck eines Agenten besteht darin, Aktionen auszuwählen, die den Wert maximieren.

Es muss also die Belohnung für die beste Aktion im Staat erhöht und ein Rabattfaktor hinzugefügt werden, der die Belohnung mit der Zeit verringert. Jedes Mal, wenn der Agent eine Aktion ausführt, kehrt er zum nächsten Status zurück.

Anstatt über mehrere Zeitschritte zu summieren, vereinfacht diese Gleichung die Berechnung der Wertfunktion und ermöglicht es uns, die optimale Lösung zu finden, indem wir ein komplexes Problem in kleinere rekursive Teilprobleme zerlegen.

Q-Learning

Q-Learning kombiniert eine Wertfunktion mit einer Qualität, die Zustands-Aktionspaaren als Q zugewiesen wird, basierend auf dem erwarteten zukünftigen Wert angesichts des aktuellen Zustands und der bestmöglichen Strategie des Agenten. Sobald der Agent diese Q-Funktion gelernt hat, sucht er nach der bestmöglichen Aktion, die in einem bestimmten Zustand die höchste Qualität erzeugt.

Mit der optimalen Q-Funktion kann die optimale Strategie bestimmt werden, indem ein Reinforcement-Learning-Algorithmus angewendet wird, um die Aktion zu finden, die den Wert jedes Zustands maximiert.

Das obige ist der detaillierte Inhalt vonDefinition, Klassifizierung und Algorithmusrahmen des Reinforcement Learning. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen