Maison  >  Article  >  Périphériques technologiques  >  Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

PHPz
PHPzavant
2023-10-21 14:17:01969parcourir

En termes d'apprentissage, GPT-4 est un excellent élève. Après avoir digéré une grande quantité de données humaines, il a maîtrisé diverses connaissances et peut même inspirer le mathématicien Terence Tao lors de discussions.

En même temps, il est également devenu un excellent professeur, enseignant non seulement la connaissance des livres, mais aussi apprenant au robot à tourner les stylos.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Le robot s'appelle Eureka et est le résultat de recherches menées par NVIDIA, l'Université de Pennsylvanie, le California Institute of Technology et l'Université du Texas à Austin. Cette recherche combine recherche sur de grands modèles de langage et apprentissage par renforcement : GPT-4 est utilisé pour affiner la fonction de récompense, et l'apprentissage par renforcement est utilisé pour former les contrôleurs de robots.

Avec la capacité d'écrire du code en GPT-4, Eureka possède d'excellentes capacités de conception de fonctions de récompense. Ses récompenses générées indépendamment sont meilleures que celles des experts humains dans 83 % des tâches. Cette capacité permet aux robots d'accomplir de nombreuses tâches qui n'étaient pas faciles à accomplir auparavant, telles que tourner des stylos, ouvrir des tiroirs et des armoires, lancer et attraper des balles, dribbler et utiliser des ciseaux. Cependant, tout cela se fait pour le moment dans un environnement virtuel.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

De plus, Eureka met en œuvre un nouveau type de RLHF en contexte qui est capable d'incorporer les commentaires en langage naturel des opérateurs humains pour guider et aligner les fonctions de récompense. Il peut fournir de puissantes fonctions auxiliaires aux ingénieurs robotiques et les aider à concevoir des comportements de mouvement complexes. Jim Fan, scientifique principal en IA chez Nvidia et l'un des auteurs de l'article, a comparé cette recherche à "Voyager (la sonde spatiale de la galaxie extérieure développée et construite par les États-Unis) dans l'espace API d'un simulateur physique".

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Il est à noter que cette recherche est entièrement open source, l'adresse open source est la suivante :

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

  • Lien papier : https://arxiv.org/pdf/2310.12931 .pdf
  • Lien du projet : https://eureka-research.github.io/
  • Lien du code : https://github.com/eureka-research/Eureka

Présentation de l'article

Les grands modèles de langage (LLM) excellent dans la planification sémantique de haut niveau pour les tâches robotiques (par exemple le robot SayCan, RT-2 de Google), mais peuvent-ils être utilisés pour apprendre des tâches complexes de manipulation de bas niveau, telles que tourner la plume, c'est toujours une question ouverte. Les tentatives existantes nécessitent une expertise approfondie du domaine pour créer des invites de tâches ou acquérir uniquement des compétences simples, ce qui est bien loin de la flexibilité au niveau humain.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Le robot RT-2 de Google.

D’un autre côté, l’apprentissage par renforcement (RL) a obtenu des résultats impressionnants en termes de flexibilité et de nombreux autres aspects (comme la main du robot jouant au Rubik’s Cube d’OpenAI), mais nécessite que les concepteurs humains construisent soigneusement la fonction de récompense avec précision. Codifie et fournit signaux d’apprentissage pour le comportement souhaité. Étant donné que de nombreuses tâches d’apprentissage par renforcement du monde réel ne fournissent que des récompenses rares et difficiles à utiliser pour l’apprentissage, la mise en forme des récompenses est nécessaire dans la pratique pour fournir des signaux d’apprentissage progressifs. Malgré son importance, la fonction de récompense est notoirement difficile à concevoir. Une enquête récente a révélé que 92 % des chercheurs et praticiens de l'apprentissage par renforcement interrogés ont déclaré qu'ils effectuaient des essais et des erreurs manuels lors de la conception des récompenses, et 89 % ont déclaré que les récompenses qu'ils avaient conçues étaient sous-optimales et entraînaient des conséquences inattendues.

Étant donné que la conception des récompenses est si importante, nous ne pouvons nous empêcher de nous demander : est-il possible de développer un algorithme général de programmation de récompenses en utilisant un codage LLM de pointe (tel que GPT-4) ? Ces LLM ont d'excellentes performances en matière d'écriture de code, de génération zéro et d'apprentissage en contexte, et ont considérablement amélioré les performances des agents de programmation. Idéalement, de tels algorithmes de conception de récompenses devraient avoir des capacités de génération de récompenses au niveau humain, être évolutifs pour un large éventail de tâches, automatiser le processus fastidieux d'essais et d'erreurs sans supervision humaine, tout en étant compatibles avec la supervision humaine pour garantir la sécurité et la cohérence. .

Cet article propose un algorithme de conception de récompense EUREKA (le nom complet est Evolution-driven Universal REward Kit for Agent) piloté par LLM. L'algorithme a atteint les réalisations suivantes :

1. Les performances de conception des récompenses ont atteint le niveau humain dans 29 environnements RL open source différents, dont 10 formes de robots différentes (robots quadrupèdes, robots quadricoptères, robots bipèdes, manipulateurs et plusieurs mains adroites, voir Figure 1. Sans invites ni modèles de récompense spécifiques à une tâche, les récompenses générées de manière autonome par EUREKA ont surpassé les récompenses des experts humains dans 83 % des tâches et ont atteint une amélioration normalisée moyenne de 52 %

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

2. les tâches d'opération adroites qui étaient auparavant impossibles à réaliser grâce à l'ingénierie de récompense manuelle. Prenons l'exemple du problème de rotation du stylo. Dans ce cas, une main avec cinq doigts doit faire pivoter rapidement le stylo selon la configuration de rotation prédéfinie. autant de cycles que possible. En combinant EUREKA avec l'apprentissage de cours, les chercheurs ont démontré pour la première fois le fonctionnement de la rotation rapide du stylo sur la « Main de l'Ombre » anthropomorphe (Voir le bas de la figure 1

3). Fournit une nouvelle méthode d'apprentissage contextuel sans gradient pour l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF), qui peut générer des images plus efficaces et alignées sur l'humain sur la base de diverses formes d'entrée humaine. L'article montre qu'EUREKA. peuvent bénéficier et améliorer les fonctions de récompense humaines existantes. De même, les chercheurs démontrent également la capacité d'EUREKA à utiliser la rétroaction textuelle humaine pour aider à la conception de fonctions de récompense. , EUREKA n'a pas d'invites de tâches spécifiques, de modèles de récompense et un petit nombre d'exemples. Dans l'expérience, EUREKA a obtenu des résultats nettement meilleurs que L2R. Bénéficiant de sa capacité à générer et à affiner des programmes de récompense expressifs de forme libre,

EUREKA. la polyvalence bénéficie de trois choix clés de conception d'algorithme : l'environnement comme contexte, la recherche évolutive et la réflexion sur les récompenses.

Premièrement, EUREKA peut générer une fonction de récompense exécutable à partir de zéro échantillon dans le LLM de codage du squelette (GPT-4). code source de l'environnement comme contexte. Ensuite, EUREKA propose de manière itérative un lot de candidats à la récompense en effectuant une recherche évolutive, et affine les récompenses les plus prometteuses dans la fenêtre de contexte LLM, améliorant ainsi considérablement la qualité des récompenses. la réflexion sur les récompenses, qui est un résumé textuel de la qualité des récompenses basé sur les statistiques de formation aux politiques, est possible. processus d'optimisation. Pour garantir qu'EUREKA puisse étendre sa recherche de récompenses à son potentiel maximum, EUREKA est implémenté dans IsaacGym. L'apprentissage par renforcement distribué accéléré par GPU est utilisé pour évaluer les récompenses intermédiaires, ce qui permet d'améliorer jusqu'à trois ordres de grandeur la vitesse d'apprentissage des politiques. faisant d'EUREKA un algorithme large qui évolue naturellement à mesure que la quantité de calcul augmente.

Comme le montre la figure 2. Les chercheurs se sont engagés à rendre open source toutes les invites, environnements et fonctions de récompense générées pour faciliter la poursuite des recherches sur la conception des récompenses basées sur le LLM.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Introduction à la méthode

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.EUREKA peut écrire indépendamment l'algorithme de récompense. Voyons comment l'implémenter.

EUREKA se compose de trois composants algorithmiques : 1) l'environnement comme contexte, prenant ainsi en charge la génération zéro de récompenses exécutables ; 2) la recherche évolutive, proposant et améliorant de manière itérative les candidats aux récompenses 3) la réflexion sur les récompenses, prenant en charge des améliorations fines des récompenses ; .

L'environnement comme contexte

Cet article recommande de fournir directement le code de l'environnement d'origine comme contexte. Avec seulement un minimum d'instructions, EUREKA peut générer des récompenses dans différents environnements avec zéro échantillon. Un exemple de sortie EUREKA est présenté à la figure 3. EUREKA combine de manière experte les variables d'observation existantes (par exemple, la position du bout du doigt) dans le code d'environnement fourni et produit un code de récompense valide - le tout sans aucune ingénierie d'indices ou modèle de récompense spécifique à l'environnement.

Cependant, la récompense générée peut ne pas toujours être exécutable du premier coup, et même si elle est exécutable, elle peut être sous-optimale. Cela soulève une question : comment surmonter efficacement le caractère sous-optimal de la génération de récompenses à partir d’un seul échantillon ?

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Recherche évolutive

Ensuite, l'article présente comment la recherche évolutive peut résoudre les problèmes de solutions sous-optimales mentionnés ci-dessus. Ils sont affinés de telle manière qu'à chaque itération, EUREKA échantillonne plusieurs sorties indépendantes du LLM (ligne 5 de l'algorithme 1). Étant donné que chaque itération (générations) est distribuée indépendamment et de manière identique, à mesure que le nombre d'échantillons augmente, la probabilité d'erreurs dans toutes les fonctions de récompense au cours de l'itération diminue de façon exponentielle.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Réflexion sur les récompenses

Pour fournir une analyse des récompenses plus complexe et ciblée, cet article propose de créer un feedback automatisé pour résumer la dynamique de formation aux politiques dans le texte. Plus précisément, étant donné que la fonction de récompense EUREKA nécessite des composants individuels dans le programme de récompense (tels que les composants de récompense de la figure 3), nous suivons les valeurs scalaires de tous les composants de récompense à des points de contrôle politiques intermédiaires tout au long du processus de formation.

Bien qu'il soit très simple de construire ce type de processus de réflexion sur les récompenses, en raison des dépendances de l'algorithme d'optimisation des récompenses, cette façon de le construire est très importante. Autrement dit, l'efficacité de la fonction de récompense est affectée par le choix spécifique de l'algorithme RL, et la même récompense peut se comporter très différemment même sous le même optimiseur, en fonction des différences d'hyperparamètres. En détaillant comment les algorithmes RL optimisent les composants de récompense individuels, la réflexion sur les récompenses permet à EUREKA de produire des modifications de récompense plus ciblées et de synthétiser des fonctions de récompense qui fonctionnent mieux en synergie avec les algorithmes RL fixes.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Expérience

La partie expérimentale effectue une évaluation complète d'Eureka, y compris sa capacité à générer des fonctions de récompense, sa capacité à résoudre de nouvelles tâches et sa capacité à intégrer diverses entrées humaines.

L'environnement expérimental comprend 10 robots différents et 29 tâches, parmi lesquelles ces 29 tâches sont implémentées par le simulateur IsaacGym. Les expériences ont été menées en utilisant 9 environnements originaux d'IsaacGym (Isaac), couvrant une variété de morphologies de robots : quadrupèdes, bipèdes, quadricoptères, manipulateurs et mains adroites de robots. En plus de cela, le document garantit la profondeur de l'évaluation en incluant 20 tâches du référentiel de dextérité.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Eureka peut générer des fonctions de récompense de niveau surhumain. Sur 29 tâches, la fonction de récompense donnée par Eureka a obtenu de meilleurs résultats que la récompense écrite par les experts sur 83 % des tâches, avec une amélioration moyenne de 52 %. En particulier, Eureka réalise des gains plus importants dans l’environnement de référence de haute dimension de la dextérité.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Eureka est capable de faire évoluer les recherches de récompenses afin que les récompenses continuent de s'améliorer au fil du temps. En combinant une recherche de récompenses à grande échelle et des retours détaillés sur la réflexion des récompenses, Eureka produit progressivement de meilleures récompenses, dépassant finalement les performances humaines.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Eureka génère également de nouvelles récompenses. Cet article évalue la nouveauté des récompenses Eureka en calculant la corrélation entre les récompenses Eureka et les récompenses humaines sur toutes les tâches Isaac. Comme le montre la figure, Eureka génère principalement des fonctions de récompense faiblement corrélées, qui surpassent les fonctions de récompense humaines. De plus, nous observons que plus la tâche est difficile, moins la récompense Eurêka est pertinente. Dans certains cas, les récompenses Eureka étaient même négativement corrélées aux récompenses humaines, tout en les surpassant largement.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Si vous voulez réaliser que la main adroite du robot peut continuer à tourner le stylo, le programme d'exploitation doit avoir autant de cycles que possible. Cet article aborde cette tâche en (1) demandant à Eureka de générer une fonction de récompense utilisée pour rediriger les stylos vers des configurations cibles aléatoires, puis (2) en utilisant les récompenses Eureka pour affiner cette politique pré-entraînée afin d'obtenir la séquence de rotation de stylo souhaitée. configuration. Comme le montre la figure, la roulette Eureka s'est rapidement adaptée à la stratégie et a tourné avec succès pendant plusieurs cycles successifs. En revanche, ni les politiques de pré-formation ni celles apprises de toutes pièces ne peuvent réaliser un seul cycle de rotations.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Cet article examine également s'il est bénéfique pour Eureka de commencer par une initialisation de fonction de récompense humaine. Comme démontré, Eureka s'améliore et bénéficie des récompenses humaines quelle que soit leur qualité.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Eureka implémente également RLHF, qui peut combiner les commentaires humains pour modifier les récompenses, guidant ainsi progressivement l'agent vers des comportements plus sûrs et plus humains. L'exemple montre comment Eureka apprend à un robot humanoïde à courir debout avec des commentaires humains qui remplacent la réflexion de récompense automatique précédente.

Avec GPT-4, le robot a appris à faire tourner des stylos et à plaquer des noix.

Un robot humanoïde apprend la démarche de course grâce à Eureka.

Pour plus d'informations, veuillez vous référer au document original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer