Maison >Périphériques technologiques >IA >Après «l'intelligence spatiale» de Li Feifei, l'Université Jiao Tong de Shanghai, l'Université Zhiyuan, l'Université de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

Après «l'intelligence spatiale» de Li Feifei, l'Université Jiao Tong de Shanghai, l'Université Zhiyuan, l'Université de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-08-07 17:06:41944parcourir

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Le premier auteur de cet article est Cai Wenxiao, un étudiant diplômé de l'Université de Stanford. Auparavant, il a obtenu un baccalauréat de l'Université du Sud-Est. le score de première année. Ses intérêts de recherche portent sur les grands modèles multimodaux et l’intelligence incorporée. Ce travail a été réalisé lors de sa visite à l'Université Jiao Tong de Shanghai et de son stage à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin. Son superviseur était le professeur Zhao Bo, l'auteur correspondant de cet article.

Auparavant, le professeur Li Feifei a proposé le concept d'intelligence spatiale. En réponse, des chercheurs de l'Université Jiao Tong de Shanghai, de l'Université de Stanford, de l'Université de Zhiyuan, de l'Université de Pékin, de l'Université d'Oxford et de l'Université de Dongda ont proposé le grand modèle spatial SpatialBot. Il a également proposé les données de formation SpatialQA et la liste de tests SpatialBench, essayant de permettre aux grands modèles multimodaux de comprendre la profondeur et l'espace dans des scénarios généraux et des scénarios incorporés.

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

Titre de l'article : SpatialBot : Compréhension précise de la profondeur avec des modèles de langage de vision
Lien de l'article : https://arxiv.org/abs/2406.13642
Page d'accueil du projet : https://github. com/BAAI-DCAI/SpatialBot

Dans la tâche de sélection et de placement de l'intelligence incarnée, il est nécessaire de déterminer si la griffe mécanique a touché l'objet cible. Si vous le rencontrez, vous pouvez fermer vos griffes et l'attraper. Cependant, dans cette scène de l'ensemble de données de démonstration Berkerly UR5, même GPT-4o ou les humains ne peuvent pas déterminer si la griffe mécanique a touché l'objet cible à partir d'une seule image RVB. Par exemple, à l'aide des informations de profondeur, la carte de profondeur peut être directement obtenue. montré à GPT-4o. Si tel est le cas, il ne peut pas être jugé car il ne peut pas comprendre la carte de profondeur.

SpatialBot peut obtenir avec précision les valeurs de profondeur de la griffe mécanique et de l'objet cible grâce à sa compréhension de la profondeur RVB, générant ainsi une compréhension des concepts spatiaux.

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

SpatialBot Démo de la scène incarnée :

1. Du point de vue humain (caméra), prenez la tasse de thé à droite

Voie nécessaire vers l’intelligence incarnée, comment faire comprendre l’espace aux grands modèles ?

Le nuage de points est relativement cher et les caméras binoculaires doivent être étalonnées fréquemment pendant leur utilisation. En revanche, les caméras de profondeur sont abordables et largement utilisées. Dans des scénarios généraux, même sans un tel équipement matériel, les modèles d'estimation de la profondeur de formation non supervisée à grande échelle peuvent déjà fournir des informations de profondeur relativement précises. Par conséquent, les auteurs proposent d’utiliser RGBD comme entrée dans des modèles spatialement vastes.

Quels sont les problèmes du parcours technique actuel ?

Les modèles existants ne peuvent pas comprendre directement l'entrée de la carte de profondeur. Par exemple, l'encodeur d'image CLIP/SigLIP est entraîné sur des images RVB sans jamais voir de cartes de profondeur.

La plupart des grands ensembles de données de modèles existants peuvent être analysés et traités en utilisant uniquement le RVB. Par conséquent, si les données existantes sont simplement modifiées en entrée RGBD, le modèle n’indexera pas activement les connaissances dans la carte de profondeur. Des tâches et une assurance qualité spécialement conçues sont nécessaires pour guider le modèle afin de comprendre la carte de profondeur et d'utiliser les informations de profondeur.

Comment guider le modèle pour comprendre et utiliser les informations de profondeur, et comprendre l'espace ?

L'auteur propose un jeu de données SpatialQA à trois niveaux.

Au niveau intermédiaire, laissez le modèle aligner la profondeur avec RVB ;

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

1. En s'appuyant sur les idées de l'agent, SpatialBot peut obtenir des informations de profondeur précises via l'API en cas de besoin. Il peut atteindre une précision de plus de 99 % sur des tâches telles que l'acquisition d'informations de profondeur et la comparaison de distance. 2. Pour les tâches de compréhension spatiale, l'auteur a annoncé la liste SpatialBench. Testez les capacités de compréhension approfondie du modèle grâce à un contrôle qualité soigneusement conçu et annoté. SpatialBot affiche des capacités proches de GPT-4o sur la liste.

Comment le modèle comprend-il la carte de profondeur ?

po.

2. SpatialBot a également démontré des résultats étonnants sur des tâches spécifiques telles que Open X-Embodiment et les données d'exploration du robot collectées par l'auteur.

B Comment marquer les données des scénarios généraux Spatialbot

Comment marquer les données ?

Questions soigneusement conçues sur la compréhension spatiale, telles que la profondeur, la relation de distance, le haut et le bas, les relations de position avant et arrière gauche et droite, les relations de taille, et incluent des questions importantes dans l'incarnation, telles que si deux objets sont dans contact.

Dans l'ensemble de test SpatialBench, les questions, les options et les réponses sont d'abord réfléchies manuellement. Afin d'augmenter la taille de l'ensemble de test, GPT est également utilisé pour l'annotation avec le même processus.

L'ensemble de formation SpatialQA comprend trois aspects :

Comprendre directement la carte de profondeur, laisser le modèle regarder la carte de profondeur, analyser la distribution de la profondeur et deviner les objets qui peuvent être inclus ;

Compréhension des relations spatiales et raisonnement ;
Compréhension des scènes de robot : décrire les scènes, les objets inclus et les tâches possibles dans Open X-Embodiment et les données du robot collectées dans cet article, et étiqueter manuellement les objets et les cadres de délimitation du robot.

Après «lintelligence spatiale» de Li Feifei, lUniversité Jiao Tong de Shanghai, lUniversité Zhiyuan, lUniversité de Pékin, etc. ont proposé le grand modèle spatial SpatialBot.

Ouvrir Lorsque vous utilisez GPT pour annoter cette partie des données, GPT verra d'abord la carte de profondeur, décrira la carte de profondeur et raisonnera sur les scènes et les objets qu'elle peut contenir. Ensuite, il verra la carte RVB et filtrera la description et le raisonnement corrects. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 github 人工智能 https gpt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Défi du modèle de langage étendu du périphérique NeurIPS2024 EdgeArticle suivant：Défi du modèle de langage étendu du périphérique NeurIPS2024 Edge

Articles Liés

Voir plus