Maison > Article > Périphériques technologiques > OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D
Commencez avec une nouvelle architecture MLLM 3D qui utilise des requêtes clairsemées pour soulever et compresser des représentations visuelles en 3D, qui sont ensuite introduites dans le LLM.
Titre : OmniDrive : Un cadre holistique d'agent LLM pour la conduite autonome avec raisonnement et planification de perception 3D
Affiliation de l'auteur : Institut de technologie de Pékin, NVIDIA, Université des sciences et technologies de Huazhong
Adresse open source : GitHub - NVlabs/OmniDrive
Multimodalité Le développement de grands modèles de langage (MLLM) a suscité un intérêt croissant pour la conduite autonome basée sur LLM, exploitant leurs puissantes capacités d'inférence. Tirer parti des puissantes capacités de raisonnement des MLLM pour améliorer le comportement de planification est un défi car ils nécessitent une connaissance complète de la situation en 3D au-delà du raisonnement en 2D. Pour relever ce défi, ce travail propose OmniDrive, un cadre complet pour un alignement robuste entre les modèles d'agent et les tâches de conduite 3D. Le cadre commence par une nouvelle architecture 3D+MLLM qui utilise des requêtes éparses pour extraire et compresser les représentations d'observation en 3D, qui sont ensuite introduites dans le LLM. Cette représentation basée sur des requêtes nous permet d'encoder conjointement des objets dynamiques et des éléments de carte statiques (par exemple, des routes de circulation), fournissant ainsi un modèle mondial concis pour l'alignement perception-action en 3D. Nous proposons en outre un nouveau benchmark qui comprend des tâches complètes de réponse visuelle aux questions (VQA), notamment la description de la scène, les règles de circulation, la mise à la terre 3D, le raisonnement contrefactuel, la prise de décision et la planification. Des recherches approfondies démontrent les capacités supérieures de raisonnement et de planification d'OmniDrive dans des scènes 3D complexes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!