从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。
题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
作者单位:北京理工大学,NVIDIA,华中科技大学
开源地址:GitHub - NVlabs/OmniDrive
多模态大语言模型(MLLMs)的发展导致了对基于LLM的自动驾驶的兴趣不断增长,利用它们强大的推理能力。利用MLLMs强大的推理能力来改进规划行为是具有挑战性的,因为它们需要超越2D推理的完整3D情境意识。为了解决这一挑战,本工作提出了OmniDrive,这是一个关于智能体模型与3D驱动任务之间强大对齐的全面框架。框架从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将观察表达提升和压缩到3D,然后将其输入LLM。这种基于查询的表达允许我们联合编码动态对象和静态地图元素(例如,交通道路),为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准,其中包括全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明,OmniDrive在复杂的3D场景中具有出色的推理和规划能力。
网络结构
实验结果
以上是OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架的详细内容。更多信息请关注PHP中文网其他相关文章!

量子计算代表范式移动,类似于从真空管到晶体管的过渡。这不仅仅是更快的计算机;这是关于从根本上改变计算机与数据相互作用的方式。 量子计算机线束量子

NVIDIA的Nemotron-Mini-4B教学:一种强大的小语言模型 NVIDIA最近宣布了Nemotron-Mini-4b-Instruct,这是一种针对速度和设备部署进行了优化的紧凑型但功能强大的小语言模型(SLM)。 源自

AI代理:人类计算机互动的未来 “ AI代理人将来将成为我们与计算机互动的主要方式。他们将能够理解我们的需求和偏好,并主动帮助我们完成任务和决策。

介绍 生成AI(Genai)的领域充满了工作机会,这与各种组织和个人的采用非常一致。如果我说你也可以使用genai赚很多钱怎么办,我

生成AI:深入研究炒作和现实 生成AI的快速发展引发了激烈的辩论。 Reddit以其公开讨论而闻名,为这项变革性技术提供了丰富的见解景观。这个含义

人工智能代理:革新社交媒体内容的节制和策展 社交媒体平台上用户生成的内容的爆炸需要复杂的内容适度和策划。 单独的人类主持人无法处理纯粹的电力

探索为NASA太空任务提供动力的编程语言 想象一下,跨太阳系跨太阳系的复杂代码引导航天器或实现突破性的火星任务。 在NASA,推动这些成就的软件并不普通。它是


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

记事本++7.3.1
好用且免费的代码编辑器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。