Maison >Périphériques technologiques >IA >Quelques réflexions sur le modèle mondial de fonctionnement des robots

Quelques réflexions sur le modèle mondial de fonctionnement des robots

王林avant: 2024-04-28 17:31:10871parcourir

Ces dernières années, la popularité des modèles mondiaux semble jouer un rôle essentiel dans le fonctionnement des robots. Pour l’intelligence incarnée, la manipulation est le point le plus important à franchir à ce stade. En particulier pour les tâches à long terme suivantes, comment construire un « cervelet » robot pour répondre à diverses exigences opérationnelles complexes est le problème le plus urgent à résoudre à l'heure actuelle.

Est-il nécessaire de diviser la compétence en opérations atomiques ?

Lors de l'utilisation de LM pour appliquer sur des robots, une approche courante consiste à fournir diverses API dans le contexte, puis à laisser LLM écrire automatiquement le code de planification en fonction de l'invite de tâche. Veuillez vous référer à l'article :

L'avantage de cette méthode. c'est que c'est très intuitif, vous pouvez saisir plus clairement la logique de démontage de la tâche, comme passer à A, saisir B, passer à C et poser B. Mais le principe de cette opération est de pouvoir diviser l'ensemble de la tâche en opérations atomiques (déplacer, saisir, placer, etc.). Mais s'il s'agit d'une tâche plus complexe, comme plier des vêtements, il est naturellement difficile de diviser la tâche, alors que devons-nous faire à ce moment-là ? En fait, pour la manipulation, nous devons faire face à de nombreuses tâches à long terme et difficiles à diviser.

Quelques réflexions sur le modèle mondial de fonctionnement des robots

Le modèle mondial peut être utilisé comme un point de rupture clé

Pour les

tâches de manipulation à long terme qui sont difficiles à diviser, une meilleure approche consiste à étudier l'apprentissage par imitation, comme la politique de diffusion ou AGIR, modéliser et adapter l’ensemble de la trajectoire opérationnelle. Cependant, cette méthode rencontrera un problème, c'est-à-dire qu'il n'y a aucun moyen de bien gérer l'erreur cumulée - et l'essence de ce problème est l'absence d'un mécanisme de rétroaction efficace.

Prenons l'exemple du pliage des vêtements. Lorsque les gens plient des vêtements, ils ajustent constamment leurs stratégies de fonctionnement en fonction des changements dans les vêtements qu'ils voient visuellement, et finalement plient les vêtements pour obtenir le look souhaité. Il y a en fait un point relativement implicite mais très important là-dedans : les gens savent à peu près quel type d'opérations provoquera quel type de changements vestimentaires. Ensuite, en allant plus loin, les gens ont en fait un modèle

sur la déformation des vêtements, et peuvent savoir approximativement quel type d'entrée entraînera des changements dans l'état (placement des vêtements) (le niveau visuel est le niveau des pixels, plus précisément). peut être exprimé comme suit :

Quelques réflexions sur le modèle mondial de fonctionnement des robots SORA m'a en fait donné un coup de pouce, c'est-à-dire que tant qu'il y a suffisamment de données, je peux utiliser transformateur + couche de diffusion pour entraîner durement un modèle f capable de comprendre et de prédire les changements . En supposant que nous disposons déjà d'un modèle f très puissant qui prédit les changements de vêtements avec les opérations, alors lors du pliage des vêtements, nous pouvons construire un servo visuel (Visual Servo) grâce à un retour d'information sur l'état des vêtements au niveau des pixels et à l'idée de

Model Predictive Control

Stratégies pour plier les vêtements dans l'état souhaité. Cela a en fait été vérifié par certaines des récentes « discussions violentes » de LeCun :

Quelques réflexions sur le modèle mondial de fonctionnement des robots

Comment construire un modèle mondial pour le fonctionnement des robots

Quelques réflexions sur le modèle mondial de fonctionnement des robots

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

transformer prompt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport d'aspectArticle suivant：Le premier grand modèle multimodal XVERSE-V de Yuanxiang est open source, actualisant la liste des grands modèles faisant autorité et prenant en charge toute entrée de rapport d'aspect

Articles Liés

Voir plus