Maison  >  Article  >  Périphériques technologiques  >  Définition, classification et cadre algorithmique de l'apprentissage par renforcement

Définition, classification et cadre algorithmique de l'apprentissage par renforcement

PHPz
PHPzavant
2024-01-24 09:30:07644parcourir

Définition, classification et cadre algorithmique de lapprentissage par renforcement

L'apprentissage par renforcement (RL) est un algorithme d'apprentissage automatique entre l'apprentissage supervisé et l'apprentissage non supervisé. Il résout les problèmes par essais, erreurs et apprentissage. Pendant la formation, l'apprentissage par renforcement prend une série de décisions et est récompensé ou puni en fonction des actions effectuées. Le but est de maximiser la récompense totale. L'apprentissage par renforcement a la capacité d'apprendre de manière autonome et de s'adapter, et peut prendre des décisions optimisées dans des environnements dynamiques. Comparé à l'apprentissage supervisé traditionnel, l'apprentissage par renforcement est plus adapté aux problèmes sans étiquettes claires et peut donner de bons résultats dans les problèmes de prise de décision à long terme.

À la base, l'apprentissage par renforcement consiste à appliquer des actions basées sur les actions effectuées par l'agent, qui sont récompensés en fonction de l'impact positif de leurs actions sur un objectif global.

Il existe deux principaux types d'algorithmes d'apprentissage par renforcement :

Algorithmes d'apprentissage basés sur un modèle ou sans modèle

Algorithmes basés sur un modèle

Les algorithmes basés sur un modèle utilisent des fonctions de transformation et de récompense pour estimer la politique optimale. Dans l’apprentissage par renforcement basé sur un modèle, l’agent a accès à un modèle de l’environnement, c’est-à-dire les actions qu’il doit effectuer pour passer d’un état à un autre, les probabilités qui y sont attachées et les récompenses correspondantes. Ils permettent aux agents d’apprentissage par renforcement de planifier en anticipant.

Algorithme sans modèle

L'algorithme sans modèle consiste à trouver la stratégie optimale lorsque la compréhension de la dynamique de l'environnement est très limitée. Il n’y a pas de transitions ni d’incitations pour juger de la meilleure politique. La politique optimale est estimée directement empiriquement, c’est-à-dire uniquement l’interaction entre l’agent et l’environnement, sans aucune allusion à la fonction de récompense.

L'apprentissage par renforcement sans modèle doit être appliqué à des scénarios contenant des informations environnementales incomplètes, tels que les voitures autonomes, auquel cas les algorithmes sans modèle sont supérieurs aux autres techniques.

Le cadre algorithmique le plus couramment utilisé pour l'apprentissage par renforcement

Processus de décision de Markov (MDP)

Le processus de décision de Markov est un algorithme d'apprentissage par renforcement qui nous fournit des méthodes formelles de prise de décision séquentielle. Cette formalisation est à la base des problèmes que résout l’apprentissage par renforcement. Le composant impliqué dans un processus de décision markovien (MDP) est un décideur appelé agent, qui interagit avec son environnement.

A chaque horodatage, l'agent obtiendra une représentation de l'état de l'environnement. Compte tenu de cette représentation, l’agent choisit une action à réaliser. L'environnement passe alors à un nouvel état et l'agent est récompensé pour ses actions précédentes. La chose importante à noter à propos du processus décisionnel de Markov est qu’il ne se soucie pas des récompenses immédiates, mais vise plutôt à maximiser la récompense totale sur l’ensemble de la trajectoire.

Équation de Bellman

L'équation de Bellman est un type d'algorithme d'apprentissage par renforcement particulièrement adapté aux environnements déterministes. La valeur d’un état donné est déterminée par l’action maximale que l’agent peut entreprendre dans l’état dans lequel il se trouve. Le but d’un agent est de choisir les actions qui maximiseront la valeur.

Il doit donc augmenter la récompense de la meilleure action dans l'État et ajouter un facteur de réduction qui réduit sa récompense au fil du temps. Chaque fois que l’agent effectue une action, il revient à l’état suivant.

Au lieu de additionner sur plusieurs pas de temps, cette équation simplifie le calcul de la fonction valeur, nous permettant de trouver la solution optimale en décomposant un problème complexe en sous-problèmes récursifs plus petits.

Q-Learning

Q-Learning combine une fonction de valeur avec une qualité attribuée aux paires état-action comme Q en fonction de la valeur future attendue compte tenu de l'état actuel et de la meilleure stratégie possible de l'agent. Une fois que l'agent a appris cette fonction Q, il recherche la meilleure action possible qui produit la plus haute qualité dans un état spécifique.

Avec la fonction Q optimale, la stratégie optimale peut être déterminée en appliquant un algorithme d'apprentissage par renforcement pour trouver l'action qui maximise la valeur de chaque état.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer