LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）-人工智能-PHP中文网

首页

科技周边

人工智能

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

PHPz

May 09, 2024 pm 04:55 PM

3d模型自动驾驶

写在前面&笔者的个人理解

这篇论文致力于解决当前多模态大语言模型（MLLMs）在自动驾驶应用中存在的关键挑战，即将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆（AVs）需要针对3D环境做出准确的决策，这一扩展显得尤为重要。3D空间理解对于AV来说至关重要，因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

当前的多模态大语言模型（如LLaVA-1.5）通常仅能处理较低分辨率的图像输入（例如），这是由于视觉编码器的分辨率限制，LLM序列长度的限制。然而，自动驾驶应用需要高分辨率的多视角视频输入，以确保车辆能在长距离内感知环境并安全决策。此外，现有的许多2D模型架构难以有效处理这些输入，因为它们需要大量的计算和存储资源。为了解决这些问题，研究人员正在努力开发新的模型架构和存储资源。

在此背景下，本文提出了一种全新的3D MLLM架构，借鉴了Q-Former风格的设计。该架构采用交叉注意力解码器，将高分辨率的视觉信息压缩到稀疏查询中，使其更易于扩展到高分辨率输入。这种架构与视角模型家族（如DETR3D、PETR(v2)、StreamPETR和Far3D）具有相似性，因为它们都利用了稀疏的3D查询机制。通过对这些查询附加3D位置编码并与多视角输入进行交互，本文的架构实现了3D空间的理解，从而更好地利用了2D图像中的预训练知识。

除了模型架构的创新，本文还提出了一个更具挑战性的基准——OmniDrive-nuScenes。该基准涵盖了一系列需要3D空间理解和长距离推理的复杂任务，并引入了反事实推理基准，以通过模拟解决方案和轨迹来评估结果。这一基准有效弥补了当前开放式评估中偏向于单一专家轨迹的问题，从而避免了在专家轨迹上的过拟合。

本文介绍了一种全面的端到端自主驱动框架OmniDrive，它在LLM-agent的基础上提供了一种有效的3D推理和规划模型，并构建了一个更具挑战性的基准，推动了自动驾驶领域的进一步发展。具体贡献如下：

提出了一种3D Q-Former架构，适用于各种驾驶相关任务，包括目标检测、车道检测、3D视觉定位、决策制定和规划。
引入了OmniDrive-nuScenes基准，这是第一个为解决规划相关挑战而设计的QA基准，涵盖了精确的3D空间信息。
实现了在规划任务上的最佳表现。

详解OmniDrive

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

整体结构

本文提出的OmniDrive-Agent结合了Q-Former和基于查询的3D感知模型的优点，在多视角图像特征中高效获取3D空间信息，解决自主驾驶中的3D感知与规划任务。整体架构如图所示。

视觉编码器：首先，使用共享的视觉编码器提取多视角图像特征。
位置编码：将提取的图像特征与位置编码一起输入到Q-Former3D中。
Q-Former3D模块：其中，表示拼接操作。为了简洁起见，公式中省略了位置编码。此步骤后，查询集合成为交互后的。其中，表示3D位置编码，是多视角图像特征。

多视角图像特征采集：接下来，这些查询从多视角图像中收集信息：
查询初始化与自注意力：在Q-Former3D中，初始化检测查询和载体查询，并进行自注意力操作以交换它们之间的信息：

输出处理：

感知任务预测：利用感知查询预测前景元素的类别和坐标。
载体查询对齐与文本生成：载体查询则通过单层MLP对齐至LLM令牌的维度（如LLaMA中的4096维度），并进一步用于文本生成。

载体查询的作用

通过该架构设计，OmniDrive-Agent能够高效地从多视角图像中获取丰富的3D空间信息，并结合LLM进行文本生成，为3D空间感知和自主驾驶提供新的解决方案。

Multi-task and Temporal Modeling

作者的方法受益于多任务学习和时序建模。在多任务学习中，作者可以为每个感知任务集成特定的Q-Former3D模块，并采用统一的初始化策略（请参见\cref{Training Strategy}）。在不同的任务中，载体查询能够够收集不同交通元素的信息。作者的实现涵盖了诸如中心线构建和3D目标检测等任务。在训练和推理阶段，这些模块共享相同的3D位置编码。作者的方法通过丰富了诸如中心线构建和3D目标检测等任务。在训练和推理阶段，这些模块共享相同的3D位置编码。作者的方法通过丰富了诸如中心线构建和3D目标检测等任务。在训练和推理阶段，这些模块共享相同的3D位置编码。

关于时序建模，作者将具有top-k分类分数的感知查询存储在记忆库中，并逐帧传播。传播后的查询通过交叉注意力与当前帧的感知查询和载体查询进行交互，从而扩展模型对视频输入的处理能力。

Training Strategy

OmniDrive-Agent的训练策略分为两个阶段：2D预训练和3D微调。在初始阶段，作者首先在2D图像任务上对多模态大模型（MLLMs）进行预训练，以初始化Q-Former和载体查询。移除检测查询后，OmniDrive模型可以被视为一个标准的视觉语言模型，能够基于图像生成文本。因此，作者采用LLaVA v1.5的训练策略和数据，在558K图文对上预训练OmniDrive。在预训练期间，除Q-Former外，所有参数保持冻结状态。随后，使用LLaVA v1.5的指令调优数据集对MLLMs进行微调。在微调过程中，图像编码器保持冻结，其他参数均可训练。

在3D微调阶段，目标是增强模型的3D定位能力，同时尽可能保留其2D语义理解能力。为此，作者为原始的Q-Former添加了3D位置编码和时序模块。在该阶段，作者使用LoRA技术以较小的学习率微调视觉编码器和大语言模型，并以相对较大的学习率训练Q-Former3D。在这两个阶段中，OmniDrive-Agent的损失计算仅包括文本生成损失，而不考虑BLIP-2中的对比学习和匹配损失。

OmniDrive-nuScenes

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

为了对驾驶多模态大模型代理进行基准测试，作者提出了OmniDrive-nuScenes，这是一个基于nuScenes数据集的新型基准，包含高质量的视觉问答（QA）对，涵盖了3D领域的感知、推理和规划任务。

OmniDrive-nuScenes的亮点在于其完全自动化的QA生成流程，该流程使用GPT-4生成问题和答案。类似于LLaVA，作者的流程将3D感知的标注作为上下文信息提供给GPT-4。在此基础上，作者进一步利用交通规则和规划模拟作为额外输入，帮助GPT-4更好地理解3D环境。作者的基准不仅测试模型的感知和推理能力，还通过涉及注意力、反事实推理和开环规划的长时域问题，挑战模型在3D空间中的真实空间理解和规划能力，因为这些问题要求对未来几秒内的驾驶规划进行模拟以得出正确答案。

除了用于离线问答的生成流程外，作者还提出了一个在线生成多样化定位问题的流程。这个流程可以看作是一种隐含的数据增强方式，用于提升模型的3D空间理解和推理能力。

Offline Question-Answering

在离线QA生成流程中，作者使用上下文信息来生成nuScenes上的QA对。首先，作者使用GPT-4生成场景描述，并将三视角的前视图和三视角的后视图拼接成两幅独立的图像输入到GPT-4中。通过提示输入，GPT-4可以描述天气、时间、场景类型等信息，并识别各视角的方向，同时避免逐视角描述，而是以相对自车的位置描述内容。

接下来，为了让GPT-4V更好地理解交通元素之间的相对空间关系，作者将对象和车道线的关系表示成类似文件树的结构，并根据对象的3D边界框，将其信息转换成自然语言描述。

随后，作者通过模拟不同的驾驶意图生成轨迹，包括车道保持、左侧换道和右侧换道，并利用深度优先搜索算法将车道中心线连接起来，生成所有可能的行驶路径。此外，作者对nuScenes数据集中自车轨迹进行了聚类，选取具有代表性的驾驶路径，并将其作为模拟轨迹的一部分。

最终，通过对离线QA生成流程中的不同上下文信息进行组合，作者能够生成多种类型的QA对，包括场景描述、注意力对象识别、反事实推理和决策规划。GPT-4可以基于模拟和专家轨迹识别威胁对象，并通过对驾驶路径的安全性进行推理，给出合理的驾驶建议。

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

Online Question-Answering

为了充分利用自动驾驶数据集中的3D感知标注，作者在训练过程中以在线方式生成大量定位类任务。这些任务旨在加强模型的3D空间理解和推理能力，包括：

2D到3D定位：给定特定相机上的2D边界框，模型需要提供对应对象的3D属性，包括类别、位置、大小、朝向和速度。
3D距离：基于随机生成的3D坐标，识别目标位置附近的交通元素，并提供它们的3D属性。
车道到对象：基于随机选择的车道中心线，列出该车道上的所有对象及其3D属性。

Metrics

OmniDrive-nuScenes数据集涉及场景描述、开环规划和反事实推理任务。每个任务侧重不同的方面，难以使用单一指标进行评估。因此，作者针对不同的任务设计了不同的评估标准。

对于场景描述相关任务（如场景描述和注意力对象选择），作者采用常用的语言评估指标，包括METEOR、ROUGE和CIDEr来评估句子相似性。在开环规划任务中，作者使用碰撞率和道路边界交叉率来评估模型的性能。对于反事实推理任务，作者使用GPT-3.5提取预测中的关键字，并将这些关键字与真实情况进行比较，以计算不同事故类别的精确率和召回率。

实验结果

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

上表展示了对规划相关任务的消融研究结果，包括反事实推理和开环规划的性能评估。

完整模型，即Q-Former3D，在反事实推理和开环规划任务上都表现出色。在反事实推理任务中，模型在“红灯违规”和“可通行区域违规”类别上都展示了较高的精准率和召回率，分别为57.6%/58.3%和48.5%/58.6%。同时，该模型在“碰撞”类别中取得了最高的召回率（72.6%）。在开环规划任务中，Q-Former3D在平均碰撞率和路界交叉率上均表现出色，分别达到了3.79%和4.59%。

移除在线训练数据（No Online）后，反事实推理任务中的“红灯违规”类别召回率有所提高（65.6%），但整体性能略有下降。碰撞和可通行区域违规的精准率和召回率均较完整模型略低，而开环规划任务的平均碰撞率上升至4.93%，平均路界交叉率下降到4.02%，这反映出在线训练数据对于提高模型整体规划性能的重要性。

在架构消融实验中，Q-Former2D版本在“红灯违规”类别上取得最高精准率（58.3%）和较高召回率（61.1%），但其他类别的表现不如完整模型，特别是“碰撞”和“可通行区域违规”类别的召回率明显下降。在开环规划任务中，平均碰撞率和路界交叉率均高于完整模型，分别为3.98%和6.03%。

采用Dense BEV架构的模型在所有类别的反事实推理任务上均表现较好，但召回率整体偏低。开环规划任务中的平均碰撞率和路界交叉率分别达到了4.43%和8.56%。

当移除时间模块时（No Temporal），模型在反事实推理任务的表现显著下降，特别是平均碰撞率上升至6.07%，路界交叉率达到5.83%。

在感知监督方面，移除车道线监督（No Lane）后，模型在“碰撞”类别的召回率显著下降，而反事实推理任务的其他类别和开环规划任务的指标表现相对稳定。完全移除物体与车道线的3D感知监督（No Object & Lane）后，反事实推理任务各类别的精准率和召回率均有下降，特别是“碰撞”类别的召回率降至53.2%。开环规划任务中的平均碰撞率和路界交叉率分别升至6.77%和8.43%，显著高于完整模型。

从以上实验结果可以看出，完整模型在反事实推理和开环规划任务中表现出色。在线训练数据、时间模块以及车道线与物体的3D感知监督对模型性能的提升起到了重要作用。完整模型能够有效地利用多模态信息进行高效的规划与决策，而消融实验的结果进一步验证了这些组件在自动驾驶任务中的关键作用。

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

同时，来看NuScenes-QA的表现：展示了OmniDrive在开环规划任务中的性能，与其他现有方法进行了对比。结果显示，OmniDrive （完整版本）在各项指标上均取得了最佳表现，尤其在开环规划的平均误差、碰撞率和路界交叉率三个方面均优于其他方法。

OmniDrive 的表现：OmniDrive 模型在1秒、2秒和3秒的预测时间内，L2平均误差分别为0.14、0.29和0.55米，最终平均误差仅为0.33米。此外，该模型的平均碰撞率和平均路界交叉率也分别达到了0.30%和3.00%，远低于其他方法。尤其在碰撞率方面，OmniDrive 在1秒和2秒的预测时间段内都实现了零碰撞率，充分展示了其出色的规划和避障能力。

与其他方法的对比：相较于其他先进的基准模型，例如UniAD、BEV-Planner 和Ego-MLP，OmniDrive 在所有关键指标上都表现优异。UniAD在使用高层级命令和自车状态信息的情况下，其L2平均误差为0.46米，而OmniDrive 在相同设置下的误差更低，为0.33米。同时，OmniDrive 的碰撞率和路界交叉率也比UniAD显著降低，尤其在碰撞率方面减少了近一半。

与BEV-Planner 相比，OmniDrive 在所有预测时间段内的L2误差均显著降低，尤其在3秒预测时间段内，误差由0.57米降至0.55米。同时，在碰撞率和路界交叉率方面，OmniDrive 也优于BEV-Planner ，碰撞率由0.34%降至0.30%，路界交叉率由3.16%降至3.00%。

消融实验：为了进一步评估OmniDrive架构中的关键模块对性能的影响，作者还比较了不同版本的OmniDrive模型的表现。OmniDrive（不使用高层级命令和自车状态信息）在预测误差、碰撞率和路界交叉率方面均明显逊于完整模型，尤其是在3秒预测时间段内的L2误差达到了2.84米，平均碰撞率高达3.79%。

当仅使用OmniDrive模型（无高层级命令和自车状态信息）时，预测误差、碰撞率和路界交叉率有所改善，但与完整模型相比仍有差距。这表明，整合高层级命令和自车状态信息对提高模型的整体规划性能具有显著作用。

整体而言，实验结果清晰地展示了OmniDrive 在开环规划任务上的卓越性能。通过整合多模态信息、高层级命令和自车状态信息，OmniDrive 在复杂的规划任务中实现了更精准的路径预测和更低的碰撞率与路界交叉率，为自主驾驶的规划与决策提供了强有力的支持。

讨论

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集在多模态大模型领域引入了一种新的范式，能够解决3D环境中的驾驶问题，并为此类模型的评估提供了一个全面的基准。然而，每个新方法和数据集都具有其优点和不足之处。

OmniDrive代理提出了一种两阶段的训练策略：2D预训练和3D微调。在2D预训练阶段，通过利用LLaVA v1.5的图像文本配对数据集预训练Q-Former和carrier queries，实现了图像特征与大型语言模型之间的更好对齐。在3D微调阶段，引入了3D位置信息编码和时间模块，增强了模型的3D定位能力。通过利用LoRA对视觉编码器和语言模型进行微调，OmniDrive既保持了对2D语义的理解，又增强了对3D定位的掌握。这样分阶段的训练策略充分发挥了多模态大模型的潜力，使其在3D驾驶场景中具有更强的感知、推理和规划能力。另一方面，OmniDrive-nuScenes作为一种全新的基准，专门为评估驾驶大模型的能力设计。其完全自动化的QA生成流程通过GPT-4生成高质量的问答对，涵盖了从感知到规划的不同任务。此外，在线生成的定位任务也为模型提供了隐含的数据增强，帮助其更好地理解3D环境。该数据集的优势还在于它不仅测试模型的感知和推理能力，还通过长时域问题来评估模型的空间理解和规划能力。这种全面的基准为未来多模态大模型的研发提供了强有力的支持。

然而，OmniDrive代理和OmniDrive-nuScenes数据集也存在一些不足之处。首先，由于OmniDrive代理在3D微调阶段需要微调整个模型，训练资源需求较高，使得训练时间和硬件成本显着增加。此外，OmniDrive-nuScenes的数据生成完全依赖GPT-4，虽然保证了问题的质量和多样性，但也导致生成的问题更倾向于自然语言能力强的模型，这可能使模型在基准测试时更依赖于语言特性而非实际驾驶能力。尽管OmniDrive-nuScenes提供了一个全面的QA基准，但其覆盖的驾驶场景仍然有限。数据集中涉及的交通规则和规划模拟仅基于nuScenes数据集，这使得生成的问题难以完全代表现实世界中的各种驾驶场景。此外，由于数据生成流程的高度自动化，生成的问题难免会受到数据偏见和提示设计的影响。

结论

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集为3D驾驶场景中的多模态大模型研究带来了新的视角和评估基准。 OmniDrive代理的两阶段训练策略成功地结合了2D预训练和3D微调，使得模型在感知、推理和规划方面均表现出色。 OmniDrive-nuScenes作为全新的QA基准，为评估驾驶大模型提供了全面的指标。然而，仍需进一步研究以优化模型的训练资源需求，改进数据集的生成流程，并确保生成的问题能够更准确地代表现实驾驶环境。总体而言，作者的方法和数据集在推进驾驶领域多模态大模型研究方面具有重要意义，为未来的工作奠定了坚实基础。

以上是LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

为何在自动驾驶方面Gaussian Splatting如此受欢迎，开始放弃NeRF？Jan 17, 2024 pm 02:57 PM

写在前面&笔者的个人理解三维Gaussiansplatting（3DGS）是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯，这与神经辐射场（NeRF）方法有很大的不同，后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法，不仅保证了实时渲染能力，而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

了解 Microsoft Teams 中的 3D Fluent 表情符号Apr 24, 2023 pm 10:28 PM

您一定记得，尤其是如果您是Teams用户，Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后，该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示，更新后的1800表情符号将为我们每天

选择相机还是激光雷达？实现鲁棒的三维目标检测的最新综述Jan 26, 2024 am 11:18 AM

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术，通过使用各种传感器（如相机、激光雷达、雷达等）来感知周围环境，并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等，从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注，并认为是未来交通领域的重要发展领域之一。但是，让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体，包括它们的位置、

Windows 11中的Paint 3D：下载、安装和使用指南Apr 26, 2023 am 11:28 AM

当八卦开始传播新的Windows11正在开发中时，每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测，Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外，它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint，它对抽屉，涂鸦者和涂鸦者有好处，但它放弃了Paint3D，它提供了额外的功能，非常适合3D创作者。如果您正在寻找一些额外的功能，我们建议AutodeskMaya作为最好的3D设计软件。如

单卡30秒跑出虚拟3D老婆！Text to 3D生成看清毛孔细节的高精度数字人，无缝衔接Maya、Unity等制作工具May 23, 2023 pm 02:34 PM

ChatGPT给AI行业注入一剂鸡血，一切曾经的不敢想，都成为如今的基操。正持续进击的Text-to-3D，就被视为继Diffusion（图像）和GPT（文字）后，AIGC领域的下一个前沿热点，得到了前所未有的关注度。这不，一款名为ChatAvatar的产品低调公测，火速收揽超70万浏览与关注，并登上抱抱脸周热门（Spacesoftheweek）。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术，受到了广泛关注现行beta版本生成的3D模型，

自动驾驶3D视觉感知算法深度解读Jun 02, 2023 pm 03:42 PM

对于自动驾驶应用来说，最终还是需要对3D场景进行感知。道理很简单，车辆不能靠着一张图像上得到感知结果来行驶，就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的，而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说，自动驾驶车辆的视觉传感器（比如摄像头）安装在车身上方或者车内后视镜上。无论哪个位置，摄像头所得到的都是真实世界在透视视图（PerspectiveView）下的投影（世界坐标系到图像坐标系）。这种视图与人类的视觉系统很类似，

《原神》：知名原神3d同人作者被捕Feb 15, 2024 am 09:51 AM

一些原神“奇怪”的关键词，在这两天很有关注度，明明搜索指数没啥变化，却不断有热议话题蹦窜。例如了龙王、钟离等“转变”立绘激增，虽在网络上疯传了一阵子，但是经过追溯发现这些是合理、常规的二创同人。如果单是这些，倒也翻不起多大的热度。按照一部分网友的说法，除了原神自身就有热度外，发现了一件格外醒目的事情：原神3d同人作者shirakami已经被捕。这引发了不小的热议。为什么被捕？关键词，原神3D动画。还是越过了线（就是你想的那种），再多就不能明说了。经过多方求证，以及新闻报道，确实有此事。自从去年发

跨模态占据性知识的学习：使用渲染辅助蒸馏技术的RadOccJan 25, 2024 am 11:36 AM

原标题：Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation论文链接：https://arxiv.org/pdf/2312.11829.pdf作者单位：FNii,CUHK-ShenzhenSSE,CUHK-Shenzhen华为诺亚方舟实验室会议：AAAI2024论文思路：3D占用预测是一项新兴任务，旨在使用多视图图像估计3D场景的占用状态和语义。然而，由于缺乏几何先验，基于图像的场景

See all articles