Maison > Article > Périphériques technologiques > L'interprétation approfondie de Nanda Yu Yang : Qu'est-ce qu'un « modèle mondial » ?
Avec le battage médiatique autour de Sora, le matériel d'introduction d'OpenAI qualifie Sora de « simulateur mondial ». Le terme modèle mondial est réapparu, mais il existe peu d'articles présentant les modèles mondiaux.
Ici, nous passons en revue ce qu'est un modèle mondial et discutons si Sora est un simulateur de monde.
Quand les mots monde/monde et environnement/environnement sont évoqués dans le domaine de l'IA, c'est généralement pour les distinguer des agents/agents.
Les domaines faisant l'objet du plus grand nombre de recherches sur les agents sont l'apprentissage par renforcement et la robotique.
Vous pouvez donc constater que les modèles du monde et la modélisation du monde apparaissent le plus tôt et le plus souvent dans les articles dans le domaine de la robotique.
Le mot modèles du monde qui a le plus grand impact aujourd'hui est peut-être cet article intitulé « modèles du monde » que Jurgen a publié sur arxiv en 2018. L'article a finalement été publié dans NeurIPS'18.
L'article ne définit pas ce que sont les modèles mondiaux, mais fait une analogie avec le modèle mental du cerveau humain dans les sciences cognitives, citant la littérature de 1971.
le modèle mental est l'image miroir du cerveau humain du monde environnant
Le modèle mental présenté dans Wikipédia souligne clairement qu'il peut participer aux processus de cognition, de raisonnement et de prise de décision. Et lorsqu’il s’agit de modèle mental, il comprend principalement deux parties : les représentations mentales et la simulation mentale.
une représentation interne de la réalité externe, supposée jouer un rôle majeur dans la cognition, le raisonnement et la prise de décision. Le terme a été inventé par Kenneth Craik en 1943 qui a suggéré que l'esprit construit des « modèles à petite échelle » de la réalité. il utilise pour anticiper les événements.
C'est encore un peu déroutant à ce stade, mais le diagramme de structure dans le document explique clairement ce qu'est un modèle mondial.
Dans la figure, le V->z vertical est la représentation de faible dimension de l'observation, qui est implémentée par VAE. Le M->h->M->h horizontal est. la représentation du prochain moment prédit de la séquence, implémentée avec RNN, les deux parties s'additionnent pour former le modèle mondial.
En d'autres termes, le modèle Monde comprend principalement la représentation d'état et le modèle de transition, qui correspond également aux représentations mentales et à la simulation mentale.
Quand vous voyez l’image ci-dessus, vous pensez peut-être : toutes les prédictions de séquences ne sont-elles pas des modèles mondiaux ?
En fait, les étudiants qui sont familiers avec l'apprentissage par renforcement peuvent voir en un coup d'œil que la structure de cette image est fausse (incomplète), et la vraie structure est l'image ci-dessous. L'entrée de RNN n'est pas seulement z, mais. aussi de l'action. Ce n'est pas la prédiction de séquence habituelle (l'ajout d'une action fera-t-il une grande différence ? Oui, l'ajout d'une action permet à la distribution des données de changer librement, ce qui pose d'énormes défis).
L'article de Jurgen appartient au domaine de l'apprentissage par renforcement.
Alors, n'y a-t-il pas beaucoup de RL basés sur des modèles en apprentissage par renforcement ? Quelle est la différence entre le modèle et le modèle mondial ? La réponse est qu’il n’y a pas de différence, c’est la même chose. Jurgen a dit quelque chose en premier
Le sens fondamental est que peu importe le nombre de travaux RL basés sur des modèles, je suis un pionnier du RNN pour créer des modèles, et je veux juste le faire.
Dans la première version de l'article de Jurgen, il a également mentionné beaucoup de RL basé sur un modèle. Bien qu'il ait appris le modèle, il n'a pas complètement formé RL au modèle.
Le fait que RL ne soit pas entièrement formé au modèle n'est pas en fait la différence entre RL basé sur un modèle et un modèle, mais la frustration de longue date de la direction RL basée sur un modèle : le modèle n'est pas assez précis et le RL formé entièrement au modèle est très efficace. Ce problème n'a été résolu que ces dernières années.
Smart Sutton a pris conscience du problème des modèles inexacts il y a longtemps. En 1990, l'article Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming qui proposait le cadre Dyna (publié sur ICML, qui était le premier atelier à être une conférence), a appelé ce modèle un modèle d'action, mettant l'accent sur la prévision des résultats de exécution des actions.
RL apprend à partir de données réelles (ligne 3) tout en apprenant à partir du modèle (ligne 5) pour éviter un apprentissage inexact du modèle à partir d'une mauvaise stratégie.
Vous pouvez voir que le modèle mondial est très important pour la prise de décision. Si vous pouvez obtenir un modèle mondial précis, vous pouvez trouver la décision optimale dans la réalité par essais et erreurs dans le modèle mondial.
C'est la fonction essentielle du modèle mondial : le raisonnement contrefactuel, c'est-à-dire que même pour des décisions qui n'ont pas été vues dans les données, les résultats de la décision peuvent être déduits dans le modèle mondial.
Les étudiants qui comprennent le raisonnement causal seront familiers avec le terme raisonnement contrefactuel. Dans le livre de vulgarisation scientifique de Judea Pearl, lauréat du prix Turing, Le livre du pourquoi, une échelle causale est dessinée. Ce que font principalement la plupart des modèles prédictifs ; la couche intermédiaire est « l'intervention », et l'exploration dans l'apprentissage par renforcement est une intervention typique ; la couche supérieure est contrefactuelle, répondant à la question « et si » par l'imagination ; Le diagramme schématique que Judea a dessiné pour un raisonnement contrefactuel est ce que les scientifiques imaginent dans leur cerveau, ce qui est similaire au diagramme schématique utilisé par Jurgen dans son article.
Gauche : Diagramme schématique du modèle du monde dans l'article de Jurgen. À droite : L’échelle de cause à effet dans le livre de Judée.
À ce stade, nous pouvons résumer que la recherche de modèles mondiaux par les chercheurs en IA consiste à essayer de transcender les données, de mener un raisonnement contrefactuel et de rechercher la capacité de répondre à des questions de simulation. Il s’agit d’une capacité que les humains possèdent naturellement, mais l’IA actuelle est encore très médiocre dans ce domaine. Une fois qu’une percée aura été réalisée, les capacités de prise de décision de l’IA seront considérablement améliorées, permettant des applications de scénarios telles que la conduite entièrement autonome.
Le mot simulateur est plus couramment utilisé dans le domaine de l'ingénierie. Il fonctionne comme un modèle mondial et tente des essais et des erreurs coûteux et à haut risque, difficiles à mettre en œuvre dans le domaine. monde réel. OpenAI semble vouloir reformuler une phrase, mais le sens reste le même.
La vidéo générée par Sora ne peut être guidée que par de vagues mots d'invite, ce qui la rend difficile à contrôler avec précision. Par conséquent, il s’agit davantage d’un outil vidéo et il est difficile à utiliser comme outil de raisonnement contrefactuel pour répondre avec précision aux questions de simulation.
Il est même difficile d'évaluer la force de la capacité de génération de Sora, car on ne sait absolument pas à quel point la vidéo de démonstration est différente des données d'entraînement.
Ce qui est encore plus décevant, c'est que ces démos montrent que Sora n'a pas appris avec précision les lois de la physique. J'ai vu quelqu'un souligner l'incohérence avec les lois physiques dans les vidéos générées par Sora [OpenAI publie le modèle vidéo Vincent Sora, l'IA peut comprendre le monde physique en mouvement. Est-ce un modèle mondial ? Qu'est-ce que ça veut dire? ]
Je suppose que les démos publiées par OpenAI devraient être basées sur des données d'entraînement très suffisantes, incluant même les données générées par CG. Cependant, même ainsi, les lois physiques qui peuvent être décrites par des équations à quelques variables ne sont toujours pas comprises.
OpenAI estime que Sora constitue une voie vers des simulateurs du monde physique, mais il semble que le simple empilage de données ne soit pas la voie vers une technologie intelligente plus avancée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!