Maison  >  Article  >  Périphériques technologiques  >  Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

王林
王林avant
2023-10-12 17:17:01686parcourir

Les modèles génératifs formés sur les données Internet révolutionnent la façon dont le contenu texte, image et vidéo est créé. Certains chercheurs prédisent que la prochaine étape des modèles génératifs sera peut-être la capacité de simuler tous les aspects de l’expérience humaine dans le monde, comme la façon de conduire une voiture sur la route ou de préparer des repas.

De nos jours, grâce à des simulateurs très complets du monde réel, les humains peuvent interagir avec différentes scènes et objets, et les robots peuvent apprendre d'expériences simulées pour éviter le risque de dommages physiques.

Cependant, l'un des obstacles majeurs à la construction d'un tel simulateur du monde réel réside dans les ensembles de données disponibles. Bien qu’il existe des milliards de textes, d’images et de clips vidéo sur Internet, différents ensembles de données couvrent différents axes d’information, et ces ensembles de données doivent être rassemblés pour simuler une expérience réaliste du monde. Par exemple, les données d'images textuelles couplées contiennent des scènes et des objets riches, mais peu d'actions ; les sous-titres vidéo et les données de questions et réponses contiennent de riches descriptions d'activités de haut niveau, mais peu de données sur les mouvements humains de bas niveau contiennent des actions humaines riches, mais il y en a peu ; mouvements mécaniques ; alors que les données du robot contiennent des mouvements de robot riches, mais leur quantité est limitée

Les différences d'informations énumérées ci-dessus sont naturelles et difficiles à surmonter, ce qui rend difficile la construction d'une simulation du monde réel visant à capturer l'expérience réelle. du monde réel. Le dispositif apporte des difficultés.

Dans cet article, des chercheurs de l'UC Berkeley, de Google DeepMind, du MIT et d'autres institutions explorent UniSim, un simulateur universel qui apprend les interactions du monde réel grâce à des modèles génératifs, faisant ainsi la première étape dans la construction d'un simulateur universel. Par exemple, UniSim peut simuler la manière dont les humains et les agents interagissent avec le monde en simulant des instructions de haut niveau telles que « ouvrir un tiroir » et les résultats visuels d'instructions de bas niveau.

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

  • Adresse papier : https://arxiv.org/pdf/2310.06114.pdf
  • Page d'accueil papier : https://universal-simulator.github.io/unisim/

Cet article combine de grandes quantités de données (y compris des paires texte-image Internet, des données riches provenant de la navigation, des activités humaines, des actions des robots, etc., et des données provenant de simulations et de rendus) dans un cadre de génération vidéo conditionnelle . Ensuite, en orchestrant soigneusement des données riches selon différents axes, cet article montre qu'UniSim peut réussir à fusionner l'expérience de différents axes de données et à généraliser au-delà des données pour permettre des interactions riches grâce à un contrôle de mouvement précis de scènes et d'objets statiques.

La vidéo suivante montre comment UniSim simule un exemple avec un long horizon d'interaction. La vidéo montre qu'UniSim simule huit instructions d'action de robot en une seule respiration :

La simulation des actions humaines d'UniSim :

La stratégie RL d'UniSim Le déploiement simulé est le suivant :

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Des experts de l'industrie tels que Yann LeCun, scientifique en chef de l'IA chez Meta, et Jim Fan, chercheur scientifique principal chez NVIDIA, ont transmis la recherche. LeCun lui a donné une note « cool »

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Jim Fan a dit que ce travail est très intéressant. Le modèle de diffusion vidéo est utilisé comme simulation physique basée sur des données dans laquelle un agent peut planifier, explorer et apprendre des actions optimales sans toucher au matériel robotique ni causer de dommages. On peut dire que LLM n'est pas seulement un système d'exploitation, mais aussi un simulateur de réalité complet

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Sherry Yang, première auteure de l'article et doctorante à l'Université de Californie à Berkeley, a déclaré : " L'apprentissage de modèles du monde réel devient une réalité »

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

.

Simulation d'interactions dans le monde réel

Comme le montre la figure 3, UniSim peut simuler une série d'actions riches dans la scène de la cuisine, notamment se laver les mains, tenir des bols, couper des carottes et se sécher les mains. Le coin supérieur droit de la figure 3 montre différents commutateurs, tandis que le bas de la figure 3 montre deux scènes de navigation

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Le contenu qui doit être réécrit est : correspondant à la scène de navigation en bas à droite de la figure 3

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Correspondant à la scène de navigation dans le coin inférieur droit de la figure 3 ci-dessus

La figure 4 ci-dessous montre un exemple d'UniSim simulant de manière autorégressive 8 interactions séquentiellement en termes de simulation à longue portée

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

. UniSim prend non seulement en charge des actions riches, mais l'interaction à longue portée peut également entraîner des changements environnementaux très divers et aléatoires. Par exemple, après avoir retiré la serviette supérieure, les objets affichés présentent une diversité (voir la figure 5 ci-dessous, à gauche)

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Résultats de migration UniSim dans le monde réel. La véritable valeur d'UniSim réside dans la simulation du monde réel, et la figure 7 montre le plan linguistique généré par VLM, la vidéo générée par UniSim sur la base du plan linguistique et l'exécution sur un robot réel.

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

En plus de tester les capacités de transfert dans le monde réel d'UniSim, cet article a également mené une évaluation basée sur un simulateur, et les résultats sont présentés dans le tableau 2 :

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Monde réel pour l'apprentissage par renforcement Simulator

L'expérience évalue également dans quelle mesure UniSim effectue diverses actions en simulant un vrai robot, qui déplace le point final vers la gauche, la droite, le bas et le haut en effectuant à plusieurs reprises des opérations de contrôle de bas niveau en environ 20 à 30 étapes. Le tableau 3 montre que la formation RL améliore considérablement les performances de la politique VLA dans diverses tâches, en particulier dans les tâches telles que le pointage vers le bloc bleu. Nous déployons ensuite directement la politique Zero-shot RL formée dans UniSim sur un vrai robot, comme le montre la figure 8 (rangée du bas).

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Les modèles génératifs créent des simulateurs interactifs du monde réel, ce que LeCun trouve plutôt cool

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer