La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Lorsque nous récupérons une montre mécanique, nous verrons le cadran et les aiguilles de face, et la couronne et le bracelet ouverts de côté. Au dos de la montre, vous verrez des engrenages et des mouvements complexes. Chaque perspective fournit des informations différentes qui sont combinées pour comprendre la vue tridimensionnelle globale de l'objet manipulé. Si vous souhaitez qu'un robot apprenne à effectuer des tâches complexes dans la vie réelle, vous devez d'abord faire comprendre au robot les propriétés de l'objet opératoire et de l'objet opéré, ainsi que les trois correspondants -Espace opérationnel dimensionnel, y compris la position, la forme et la relation d'occlusion entre les objets, et la relation entre les objets et l'environnement, etc. Deuxièmement, le robot doit comprendre les instructions en langage naturel, effectuer une planification à long terme et une exécution efficace des actions futures. Il est difficile d’équiper les robots de capacités allant de la perception de l’environnement à la prédiction des actions. Récemment, le Le professeur Li Xuelong de l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI) s'est associé au Laboratoire d'intelligence artificielle de Shanghai, Université Tsinghua et d'autres unités pour simuler la cognition humaine de la « perception-mémoire-pensée- imagination" Dans le processus, un algorithme d'opération incarné universel piloté par la fusion multi-vues a été proposé, qui a fourni une solution réalisable permettant aux robots d'apprendre des opérations complexes. Le document a été accepté par la Conférence internationale sur l'apprentissage automatique ICML 2024, posant les bases base pour la construction d’une stratégie incarnée universelle en trois dimensions. L'introduction vidéo de SAM-E est la suivante : Ces dernières années, la capacité des modèles de vision de base à comprendre les images s'est développée rapidement. Cependant, de nombreux défis subsistent dans la compréhension de l’espace tridimensionnel. Pouvons-nous utiliser de grands modèles visuels pour aider les agents incarnés à comprendre des scènes d’opération en trois dimensions et leur permettre d’accomplir diverses tâches d’exploitation complexes dans un espace tridimensionnel ? Inspiré par le processus cognitif de « perception-mémoire-pensée-imagination », l'article propose un nouveau modèle de base incarné SAM-Ebasé sur le modèle de segmentation visuelle Segment Anything (SAM).
Tout d'abord, SAM-E dispose d'une puissante capacité d'invite de « perception
» Il applique la structure de segmentation unique de SAM à des tâches spécifiques d'instructions linguistiques et permet au modèle de prêter attention à la scène en analysant les instructions textuelles. .objet opérationnel.
Par la suite, un transformateur multi-vues est conçu pour fusionner et aligner les caractéristiques de profondeur, les caractéristiques d'image et les caractéristiques de commande afin d'obtenir l'objet « mémoire
» et l'opération « penser » pour comprendre le bras robotique en trois dimensions. espace opérationnel. nouveau réseau de prédiction de séquences d'action
est proposé pour modéliser des séquences d'action à plusieurs pas de temps, "imaginer" des instructions d'action et réaliser de la perception de scènes tridimensionnelles aux actions incarnées de bout en bout. sortie .
- Nom de l'article : SAM-E : Exploiter le modèle de fondation visuelle avec imitation de séquence pour la manipulation incorporée
- Lien de l'article : https://sam-embodied.github.io/static/SAM-E.pdf
- Adresse du projet : https://sam-embodied.github.io/
De la perception bidimensionnelle à la perception tridimensionnelleDans la vague de l'ère numérique , avec l'intelligence artificielle Avec le développement rapide des technologies intelligentes, nous entrons progressivement dans une nouvelle ère : celle de l'intelligence incarnée. Donner à un agent intelligent un corps et la capacité d’interagir directement avec le monde réel est devenu l’un des axes clés des recherches actuelles. Pour atteindre cet objectif, l'agent doit avoir de fortes capacités de perception tridimensionnelle afin de pouvoir comprendre avec précision l'environnement qui l'entoure. Les méthodes traditionnelles de perception bidimensionnelle sont inadéquates face à un espace tridimensionnel complexe. Comment permettre aux agents incarnés de maîtriser la capacité de modélisation précise de l'espace tridimensionnel grâce à l'apprentissage est devenu une question clé qui doit être résolue. instamment. Travail existant restaure et reconstruit l'espace tridimensionnel à partir de plusieurs perspectives telles que la vue de face, la vue de dessus, la vue latérale, etc. Cependant, les ressources informatiques requises sont relativement importantes et leur capacité de généralisation est faible dans différents scénarios. . limité. Afin de résoudre ce problème, ce travail explore une nouvelle approche :
appliquer la puissante capacité de généralisation des grands modèles visuels au domaine de la perception tridimensionnelle des agents incarnés. SAM-E propose d'utiliser le grand modèle visuel général SAM avec une forte capacité de généralisation pour la perception visuelle. Grâce à un réglage fin efficace des scènes incarnées, il est généralisable et incitatif. Capacités d'extraction de fonctionnalités, capacités de segmentation d'instance, scène complexe. la compréhension et d’autres capacités sont efficacement transférées aux scènes incarnées.
Afin d'optimiser davantage les performances du modèle de base SAM, le concept de réseau de séquences d'actions est introduit, qui peut non seulement capturer la prédiction d'une action unique, mais également comprendre en profondeur le lien interne entre les actions consécutives et exploiter pleinement les informations de synchronisation entre les actions, améliorant ainsi encore la capacité du modèle de base à comprendre et à s'adapter aux scènes incarnées. Figure 1. Cadre global de SAM-E
Le point de vue principal de la méthode SAM-E comprend principalement deux aspects :
En utilisant la structure pilotée par invites de SAM, un puissant modèle de base est construit, qui a d'excellentes performances de généralisation sous les instructions du langage de tâche. Grâce à la technologie de réglage fin LoRA, le modèle est adapté à des tâches spécifiques, améliorant encore ses performances. adopte une
technologie de modélisation d'action séquentielle pour capturer les informations de synchronisation dans la séquence d'action, mieux comprendre les changements dynamiques de la tâche et ajuster la stratégie et la méthode d'exécution du robot en temps opportun pour maintenir une efficacité d'exécution élevée de la tâche. robot. Perception et réglage précis des invites
- Le cœur de SAM-E est une structure de réseau pilotée par des invites d'instructions de tâches, comprenant un puissant encodeur visuel et un décodeur léger.
Dans les scènes incarnées- les « invites » de tâche sont présentées sous forme de langage naturel En tant qu'instructions de description de tâche, l'encodeur visuel exerce ses capacités de perception d'incitation pour extraire les caractéristiques liées à la tâche. Le réseau de politiques agit comme un décodeur et génère des actions basées sur l’intégration visuelle et les instructions linguistiques fusionnées. Dans la phase d'entraînement, SAM-E utilise LoRA pour un réglage fin efficace
, ce qui réduit considérablement les paramètres d'entraînement et permet au modèle de vision de base de s'adapter rapidement à des tâches spécifiques.
Fusion 3D multi-perspectivesSAM-E introduit un réseau Transformer multi-perspectives pour fusionner les entrées visuelles de plusieurs perspectives et comprendre en profondeur l'espace tridimensionnel. Son travail est divisé en deux étapes : View-wise Attention et Cross-view Attention. Tout d'abord, effectuez séparément le traitement de l'attention intra-vue sur les fonctionnalités multi-vues, puis fusionnez plusieurs vues et descriptions de langage pour une attention de vue hybride afin d'obtenir une fusion d'informations multi-vues et un alignement image-langage. Modélisation de la séquence d'action Pendant l'exécution du bras robotique, la position et la rotation de l'effecteur final montrent généralement une tendance de changement continue et fluide. Cette fonctionnalité permet une connexion étroite et une continuité entre les actions adjacentes. Sur la base de cette observation, une nouvelle hypothèse de lissage temporel est proposée, visant à exploiter pleinement la corrélation intrinsèque entre les actions adjacentes et à réaliser un apprentissage par imitation efficace des séquences d'actions.
Plus précisément, le cadre SAM-E capture les modèles et les relations dans les séquences d'action grâce à la technologie de modélisation de séquence, fournit une connaissance préalable implicite pour la prédiction des actions et restreint la continuité des actions, améliorant ainsi considérablement la précision et la cohérence de l'action. prédiction.
Dans les applications pratiques, SAM-E permet d'exécuter des actions ultérieures en plusieurs étapes en une seule prédiction d'action, améliorant considérablement l'efficacité de l'exécution.
Figure 4. Réseau de prédiction de séquences d'action
Utilisation expérimentale
Une collection stimulante de tâches de bras robotique - RLBench, évalue de manière exhaustive les tâches opérationnelles 3D sous observation multi-vues Le modèle SAM-E surpasse considérablement les autres méthodes traditionnelles à bien des égards. scénario multi-tâches
, le modèle SAM-E améliore considérablement le taux de réussite des missions.
Lorsque
est confronté à la situation de migration d'un petit nombre d'échantillons vers de nouvelles tâches
, SAM-E peut améliorer efficacement les performances de nouvelles tâches grâce à ses fortes performances de généralisation et son efficacité d'exécution efficace. ✨ Figure 6. Exemple de tâche d'opération tridimensionnelle E, et en même temps, dans la phase d'exécution de la stratégie, par rapport à une seule action, exécution de la séquence d'actions Le nombre d'inférences de modèle est considérablement réduit et la tâche correspondante peut même être complétée par une seule inférence de modèle pendant le test. Également efficace dans le vrai bras de robot Control , utilisant deux caméras à la troisième personne pour capturer une vision multiperspective, avec des capacités de raisonnement en temps réel sur cinq tâches du monde réel. Résumé
Ce travail a été le pionnier d'une communication méthode basée sur la fusion multi-vues À l'aide d'algorithmes d'opération incorporés, la segmentation visuelle de grands modèles et la fusion multi-vues sont utilisées pour obtenir trois. perception dimensionnelle de l'espace physique des agents incarnés. Grâce à un réglage efficace des paramètres, le modèle visuel pré-entraîné est transféré à la scène incarnée, ce qui peut résoudre les tâches complexes de fonctionnement du bras de robot 3D des instructions en langage naturel. De plus, le modèle peut rapidement se généraliser à de nouvelles tâches en apprenant un petit nombre d'exemples d'experts, démontrant ainsi une efficacité de formation et d'exécution des actions supérieure.
Plus important encore, SAM-E utilise le lien cognitif «
Perception-Mémoire-Pensée-Imagination » pour réaliser une cartographie de bout en bout des données à l'action. Son importance réside non seulement dans son application à l’intelligence incarnée, mais également dans son inspiration pour améliorer la capacité cognitive de l’intelligence.
En simulant la perception humaine et les méthodes de prise de décision, les agents intelligents peuvent mieux comprendre et s'adapter à des environnements complexes, jouant ainsi un rôle plus important dans un plus large éventail de domaines.
Présentation du chef d'équipe :
Li Xuelong, CTO et scientifique en chef de China Telecom, président de l'Institut de recherche sur l'intelligence artificielle de China Telecom (TeleAI). Se concentrant principalement sur l'intelligence artificielle, la sécurité locale, le traitement d'images et l'intelligence incorporée. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Déclaration:Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn