Maison  >  Article  >  Périphériques technologiques  >  Transformers+world model, peut-il sauver l’apprentissage par renforcement profond ?

Transformers+world model, peut-il sauver l’apprentissage par renforcement profond ?

王林
王林avant
2023-05-04 09:19:061126parcourir

​Beaucoup de gens savent qu'AlphaGo, qui a battu Li Sedol, Ke Jie et d'autres grands joueurs d'échecs internationaux, a eu un total de trois itérations, à savoir l'AlphaGo Lee de première génération, qui a battu Li Sedol, et la deuxième génération. AlphaGo Master, qui a vaincu Ke Jie, et AlphaGo Zero de troisième génération, qui a battu les deux générations précédentes.

Les compétences d'AlphaGo aux échecs peuvent augmenter de génération en génération. Derrière cela se cache en fait une tendance évidente dans la technologie de l'IA, à savoir la proportion croissante d'apprentissage par renforcement.

Ces dernières années, l'apprentissage par renforcement a connu une autre « évolution ». Les gens appellent l'apprentissage par renforcement « évolué » l'apprentissage par renforcement profond.

Mais l'efficacité des échantillons d'agents d'apprentissage par renforcement profond est faible, ce qui limite considérablement leur application dans des problèmes pratiques.

Récemment, de nombreuses méthodes basées sur des modèles ont été conçues pour résoudre ce problème, et l'apprentissage dans l'imagination du modèle du monde est l'une des méthodes les plus importantes.

Cependant, même si une interaction presque illimitée avec un environnement simulé semble attrayante, le modèle mondial doit rester précis sur de longues périodes de temps.

Inspirés par le succès de Transformer dans les tâches de modélisation de séquences, Vincent Micheli, Eloy Alonso et François Fleure de l'Université Cornell ont présenté IRIS, un agent efficace en matière de données qui apprend dans un modèle mondial composé d'auto-encodeurs discrets et Transformateurs autorégressifs.

Sur le benchmark Atari 100k, sur l'équivalent de seulement deux heures de jeu, IRIS a atteint un score moyen normalisé par l'humain de 1,046 et a surperformé dans 10 des 26 jeux les êtres humains.

Auparavant, LeCun avait dit un jour que l'apprentissage par renforcement mènerait à une impasse.

Transformers+world model, peut-il sauver l’apprentissage par renforcement profond ?

Maintenant, il semble que Vincent Micheli et Eloy Aaron Seau de l'Université Cornell, François Fleure et d'autres intègrent des modèles mondiaux et l'apprentissage par renforcement (plus précisément, l'apprentissage par renforcement profond), et le pont reliant les deux est Transformers.

Quelle est la différence entre l'apprentissage par renforcement profond

Quand il s'agit de technologie d'intelligence artificielle, ce à quoi beaucoup de gens peuvent penser, c'est l'apprentissage en profondeur.

En fait, même si le deep learning est toujours actif dans le domaine de l'IA, il a mis en lumière de nombreux problèmes.

La méthode d'apprentissage profond la plus couramment utilisée actuellement est l'apprentissage supervisé. L'apprentissage supervisé peut être compris comme un « apprentissage avec des réponses de référence ». L'une de ses caractéristiques est que les données doivent être étiquetées avant de pouvoir être utilisées pour la formation. Mais aujourd’hui, une grande quantité de données sont des données non étiquetées, et le coût de l’étiquetage est très élevé.

À tel point qu'en réponse à cette situation, certains ont plaisanté en disant qu'"il y a autant d'intelligence que d'intelligence artificielle".

De nombreux chercheurs, dont de nombreux experts, se demandent si l'apprentissage profond est « faux ».

Ainsi, l'apprentissage par renforcement a commencé à se développer.

L'apprentissage par renforcement est différent de l'apprentissage supervisé et de l'apprentissage non supervisé. Il utilise un agent pour effectuer des essais et des erreurs en continu, et récompense et punit l'IA en fonction des résultats des essais et des erreurs. Il s’agit de la méthode de DeepMind pour créer diverses IA d’échecs et de cartes et IA de jeu. Les partisans de cette voie croient que tant que les récompenses sont correctement définies, l’apprentissage par renforcement finira par créer un véritable AGI.

Mais l'apprentissage par renforcement pose également des problèmes. Selon les mots de LeCun, « l'apprentissage par renforcement nécessite une énorme quantité de données pour entraîner le modèle à effectuer les tâches les plus simples ».

L'apprentissage par renforcement et l'apprentissage profond ont donc été combinés pour devenir un apprentissage par renforcement profond.

L'apprentissage par renforcement profond, l'apprentissage par renforcement est le squelette et l'apprentissage profond est l'âme. Qu'est-ce que cela signifie ? Le principal mécanisme opérationnel de l’apprentissage par renforcement profond est en fait fondamentalement le même que celui de l’apprentissage par renforcement, sauf qu’un réseau neuronal profond est utilisé pour mener à bien ce processus.

De plus, certains algorithmes d'apprentissage par renforcement profond implémentent simplement un nouvel ensemble d'algorithmes d'apprentissage par renforcement profond directement sur les algorithmes d'apprentissage par renforcement existants en ajoutant des réseaux de neurones profonds. Le très célèbre algorithme d'apprentissage par renforcement profond DQN est un typique. exemple.

Ce qui est magique avec les Transformers

Les Transformers sont apparus pour la première fois en 2017 et ont été proposés dans l'article de Google "L'attention est tout ce dont vous avez besoin" de.

Avant l'émergence de Transformer, les progrès de l'intelligence artificielle dans les tâches linguistiques étaient en retard par rapport au développement d'autres domaines. « Le traitement du langage naturel a été un peu tardif dans cette révolution de l'apprentissage profond qui s'est produite au cours de la dernière décennie », explique Anna Rumshisky, informaticienne à l'Université du Massachusetts Lowell. « Dans un sens, la PNL était en retard sur la vision par ordinateur, Transformer. Cela change. Ces dernières années, les modèles d'apprentissage automatique de Transformer sont devenus l'un des principaux points forts des avancées technologiques en matière d'apprentissage profond et de réseaux neuronaux profonds. Il est principalement utilisé pour des applications avancées dans le traitement du langage naturel. Google l'utilise pour améliorer les résultats de ses moteurs de recherche.

Transformer est rapidement devenu un leader dans les applications telles que la reconnaissance de mots axées sur l'analyse et la prédiction de texte. Cela a déclenché une vague d’outils comme GPT-3 d’OpenAI qui peuvent être formés sur des centaines de milliards de mots et générer un nouveau texte cohérent.

Actuellement, l'architecture Transformer continue d'évoluer et de s'étendre dans de nombreuses variantes différentes, s'étendant des tâches linguistiques à d'autres domaines. Par exemple, Transformer a été utilisé pour la prédiction de séries chronologiques et constitue également l’innovation clé derrière le modèle de prédiction de la structure des protéines de DeepMind, AlphaFold.

Les transformateurs sont également récemment entrés dans le domaine de la vision par ordinateur et remplacent lentement les réseaux de neurones convolutifs (CNN) dans de nombreuses tâches complexes.

World Model et Transformers unissent leurs forces, qu'en pensent les autres ? Concernant les résultats de la recherche de l'Université Cornell, certains internautes étrangers ont commenté : « Veuillez noter que ces deux heures sont la durée de prises de vue de l'environnement, réalisées sur le GPU. semaine."

Certaines personnes se demandent également : ce système apprend donc sur un modèle mondial sous-jacent particulièrement précis ? Le modèle ne nécessite-t-il aucune formation préalable ?

De plus, certaines personnes estiment que les résultats de Vincent Micheli et d'autres de l'Université Cornell ne sont pas des avancées révolutionnaires : "Il semble qu'ils n'aient formé que le mannequin mondial, les vqvae et les critiques d'acteurs, qui sont tous venus de ces 2 heures d'expérience (et environ 600 époques) de tampon de relecture".

Référence : https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer