搜索
首页科技周边人工智能DiffMap:首个利用LDM来增强高精地图构建的网络

论文标题:

DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model

论文作者:

Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

01 背景简介

自动驾驶车辆辆来说,高清(HD)地图能够够帮助其提高对环境理解(感知)的准确度和导航的精度。然而,人工建图面临临繁杂和高成本的问题。为此,当前研究将地图构建集成到BEV(鸟瞰视角)感知任务中,在BEV空间中构建栅格化HD地图视为一个分割任务,可以理解为获得BEV特征后增加使用类似于FCN(全卷积网络)的分割头。例如,HDMapNet通过LSS(Lift,Splat,Shoot)编码传感器特征,然后采用多分辨率FCN进行语义分割、实例检测和方向预测来构建地图。

然而,目前此类方法(基于像素的分类方法)仍存在固有局限性,包括可能忽略特定分类属性,这可能导致分隔带扭曲和中断、行人横道模糊以及其他类型的伪影和噪声,如图1(a)所示。这些问题不仅影响地图的结构精度,还可能直接影响自动驾驶系统的下游路径规划模块。

DiffMap:首个利用LDM来增强高精地图构建的网络

▲图1|HDMapNet,DiffMap和GroundTruth效果对比

因此,模型最好能考虑HD地图的结构先验信息,如车道线的平行和笔直特性。一些生成模型在捕捉图像真实性和固有特性备这样的能力。例如,LDM(潜在扩散模型)在高保真图像生成方面展现了巨大潜力,并在与分割增强相关的任务中证明了其有效性。另外,还可以通过引入控制变量,进一步指导图像生成以满足特定的控制要求。因此,将生成模型应用于捕捉地图结构先验,有望减少分割伪影并提高地图构建性能。

在本文中,作者提到DiffMap网络。该网络首次通过使用改进的LDM作为增强模块,对现有的分割模型进行地图结构化先验建模并支持即插即用。DiffMap不仅能通过添加和删除噪声的过程学习地图先验,以确保输出与当前帧观测相匹配,还可以将BEV特征集成为控制信号,以确保输出与当前帧观测相匹配。实验结果表明,DiffMap能够有效地生成更加平滑合理的地图分割结果,同时极大地减少了伪影,提高了整体的地图构建性能。

02 相关工作

2.1 语义地图构建

在传统的高清(HD)地图构建中,语义地图通常是基于激光雷达点云手动或半自动标注的。一般基于SLAM的算法来构建全局一致的地图,并手动为地图添加语义标注。然而,这种方法费时费力,同时在更新地图方面也存在极大挑战,从而限制了其可扩展性和实时性能。

HDMapNet提出了一种使用车载传感器动态构建局部语义地图的方法。它将激光雷达点云和全景图像特征编码到鸟瞰视图(BEV)空间,并使用三个不同的头部进行解码,最终产生一个矢量化的局部语义地图。SuperFusion专注于构建远程高精度语义地图,利用激光雷达深度信息增强图像深度估计,并使用图像特征引导远程激光雷达特征预测。然后采用类似于HDMapNet的地图检测头获得语义地图。MachMap将任务划分为折线检测和多边形实例分割,并使用后处理来细化掩码以获得最终结果。后续的研究聚焦在端到端在线建图,直接获得矢量化的高清地图。无需手动标注的语义地图动态构建有效地降低了构建成本。

2.2 扩散模型应用于分割和检测

去噪扩散概率模型(DDPMs)是基于马尔可夫链的一类生成模型,在图像生成等领域展现出优秀的性能,并逐步扩展到分割和检测等各种任务。SegDiff将扩散模型应用于图像分割任务,其中使用的UNet编码器进一步解耦为三个模块:E、F和G。模块G和F分别编码输入图像I和分割图,然后在E中通过加法合并,以迭代地细化分割图。DDPMS使用基础分割模型产生初始预测先验,并利用扩散模型对先验进行细化。DiffusionDet将扩散模型扩展到目标检测框架,将目标检测建模为从噪声框到目标框的去噪扩散过程。

扩散模型也应用于自动驾驶领域,如MagicDrive利用几何约束合成街景,以及Motiondiffuser将扩散模型扩展到多智能体运动预测问题。

2.3 地图先验

目前有几种方法通过利用先验信息(包括显式的标准地图信息和隐式的时间信息)来增强模型鲁棒性,减少车载传感器的不确定性。MapLite2.0以标准定义(SD)先验地图为起点,并结合车载传感器实时推断局部高清地图。MapEx和SMERF利用标准地图数据改善车道感知和拓扑理解。SMERF采用基于Transformer的标准地图编码器编码车道线和车道类型,然后计算标准地图信息与基于传感器的鸟瞰视图(BEV)特征之间的交叉注意力,以集成标准地图信息。NMP通过将过去的地图先验数据与当前感知数据相结合,为自动驾驶汽车提供长期记忆能力。MapPrior结合判别式和生成式模型,在预测阶段将基于现有模型生成的初步预测编码为先验,注入生成模型的离散潜在空间,然后使用生成模型进行细化预测。PreSight利用先 前行程的数据优化城市尺度的神经辐射场,生成神经先验,增强后续导航中的在线感知。

03 方法精析

3.1 准备工作

DiffMap:首个利用LDM来增强高精地图构建的网络


DiffMap:首个利用LDM来增强高精地图构建的网络

3.2 整体架构

如图2所示。DiffMap作为解码器,将扩散模型纳入语义地图分割模型,该模型以周围多视角图像和LiDAR点云作为输入,将其编码为BEV空间并获得融合的BEV特征。然后采用DiffMap作为解码器生成分割图。在DiffMap模块中,将BEV特征作为条件来引导去噪过程。

DiffMap:首个利用LDM来增强高精地图构建的网络▲图2|DiffMap架构©️【深蓝AI】编译

◆语义地图构建的基线:基线主要遵循BEV编码器-解码器范式。编码器部分负责从输入数据(LiDAR和/或相机数据)中提取特征,将其转换为高维表示。同时,解码器通常作为分割头,将高维特征表示映射到相应的分割图。基线在整个框架中起两个主要作用:监督者和控制器。作为监督者,基线生成分割结果作为辅助监督。同时,作为控制器,它提供中间BEV特征作为条件控制变量,以引导扩散模型的生成过程。

◆DiffMap模块:沿袭LDM,作者在基线框架中引入DiffMap模块作为解码器。LDM主要由两部分组成:一个图像感知压缩模块(如VQVAE)和一个使用UNet构建的扩散模型。首先,编码器将地图分割ground truth 编码为潜在空间中的,其中表示潜在空间的低维度。随后,在低维潜在变量空间中执行扩散和去噪,然后使用解码器将潜在空间恢复到原始像素空间。

首先通过扩散过程添加噪声,在每个时间步获得噪声潜在图,其中。然后在去噪过程中,UNet作为噪声预测的主干网络。为了增强分割结果的监督部分,并希望DiffMap模型在训练期间直接为实例相关预测提供语义特征。因此,作者将UNet网络结构分为两个分支,一个分支用于预测噪声,如传统扩散模型,另一个分支用于预测潜在空间中的。

如图3所示。获得潜在图预测后,将其解码到原始像素空间,作为语义特征图。然后就可以按照HDMapNet提出的方法从中获得实例预测,输出三种不同头的预测:语义分割、实例嵌入和车道方向。这些预测随后用于后处理步骤以矢量化地图。

DiffMap:首个利用LDM来增强高精地图构建的网络

▲图3|去噪模块

整个过程是一个有条件的生成过程,根据当前传感器输入下获得地图分割结果。其结果的概率分布可以建模为,其中表示地图分割结果,表示条件控制变量,即BEV特征。作者这里用了两种方式融合控制变量。首先,由于和BEV特征在空间域上具有相同的类别和尺度,将调整为潜在空间大小,然后将它们串联作为去噪过程的输入,如公式5所示。

其次,将交叉注意力机制融入到UNet网络的每一层,其中作为key/value,作为query。交叉注意力模块的公式如下:

3.3 具体实现

◆训练:

DiffMap:首个利用LDM来增强高精地图构建的网络

◆推理:

DiffMap:首个利用LDM来增强高精地图构建的网络

04 实验

4.1 实验细节

◆数据集:在nuScenes数据集上验证DiffMap。nuScenes数据集包含1000个场景的多视角图像和点云,其中700个场景用于训练,150个用于验证,150个用于测试。nuScenes数据集还包含注释的高清地图语义标签。

◆架构:使用ResNet-101作为相机分支的主干网络,使用PointPillars作为模型的LiDAR分支主干网络。基线模型中的分割头是基于ResNet-18的FCN网络。对于自编码器,采用VQVAE,该模型在nuScenes分割地图数据集上进行了预训练,以提取地图特征并将地图压缩为基本潜在空间。最后使用UNet来构建扩散网络。

◆训练细节:使用AdamW优化器训练VQVAE模型30个epoch。使用的学习率调度器是LambdaLR,它以指数衰减模式逐渐降低学习率,衰减因子为0.95。初始学习率设置为,批量大小为8。然后,使用AdamW优化器从头开始训练扩散模型30个epoch,初始学习率为2e-4。采用MultiStepLR调度器,该调度器根据指定的里程碑时间点(0.7、0.9、1.0)和在不同训练阶段的缩放因子1/3来调整学习率。最后将BEV分割结果设置为0.15m的分辨率,并将LiDAR点云体素化。HDMapNet的检测范围为[-30m,30m]×[-15m,15m]m,因此相应的BEV地图大小为400×200,而Superfusion使用[0m,90m]×[-15m,15m]并得到600×200的结果。由于LDM的维度约束(在VAE和UNet中下采样8倍),需要将语义地面实况地图的大小填充到64的倍数。

◆推理细节:通过在当前BEV特征条件下对噪声地图执行去噪过程20次来获得预测结果。使用3次采样的平均值作为最终的预测结果。

4.2 评估指标

主要针对地图语义分割和实例检测任务进行平评估。且主要集中在三个静态地图元素上:车道边界、车道分隔线和行人横道。

DiffMap:首个利用LDM来增强高精地图构建的网络


DiffMap:首个利用LDM来增强高精地图构建的网络

4.3 评估结果

表1显示了语义地图分割的 IoU 得分比较。DiffMap 在所有区间都显示出显著的改善,尤其在车道分隔线和行人横道上取得了最佳结果。

DiffMap:首个利用LDM来增强高精地图构建的网络▲表1|IoU得分比较

如表2所示,DiffMap方法在平均精度(AP)方面也有显著提升,验证了 DiffMap 的有效性。

DiffMap:首个利用LDM来增强高精地图构建的网络▲表2|MAP得分比较

如表3所示,将DiffMap范式集成到HDMapNet中时,可以观察到,无论是仅使用摄像头还是摄像头-激光雷达融合方法,DiffMap都能提高HDMapNet的性能。这说明DiffMap方法在各类分割任务上都很有效,包括远距离和近距离检测。然而对于边界,DiffMap的表现并不出色,这是因为边界的形状结构不固定,存在许多难以预测的扭曲,从而使捕捉先验结构特征变得困难。

DiffMap:首个利用LDM来增强高精地图构建的网络▲表3|定量分析结果

4.4 消融实验

表4显示了VQVAE中不同下采样因子对检测结果的影响。通过分析DiffMap在下采样因子为4、8、16时的行为可以看到,当下采样因子设置为8x时,结果最佳。

DiffMap:首个利用LDM来增强高精地图构建的网络▲表4|消融实验结果

此外,作者还测量了删除与实例相关的预测模块对模型的影响,如表5所示。实验表明,添加此预测进一步提高了IOU。

DiffMap:首个利用LDM来增强高精地图构建的网络

▲表5|消融实验结果(是否包含预测模块)

4.5 可视化

图4展示了DiffMap和基线(HDMapNet-fusion)在复杂场景中的比较。很明显,基线的分割结果忽略了元素内部的形状属性和一致性。相比之下,DiffMap展示了能够纠正这些问题的能力,产生与地图规范很好对齐的分割输出。具体而言,在案例(a)、(b)、(d)、(e)、(h)和(l)中,DiffMap有效地纠正了不准确预测的人行横道。在案例(c)、(d)、(h)、(i)、(j)和(l)中,DiffMap完成或删除了不准确的边界,使结果更接近于现实的边界几何。此外,在案例(b)、(f)、(g)、(h)、(k)和(l)中,DiffMap解决了分隔线断裂的问题,确保了相邻元素的平行性。

DiffMap:首个利用LDM来增强高精地图构建的网络▲图4|定性分析结果

05 总结与未来展望

在本文中,作者设计的DiffMap网络是一种利用潜在扩散模型学习地图结构先验的新方法,从而增强了传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具,其预测结果在远近距离检测场景中都有显著改善。由于该方法具有很强的扩展性,适合研究其他类型的先验信息,例如可以将SD地图先验集成到DiffMap的第二模块中,从增强其性能表现。将来有望在矢量化地图构建中继续有所进步。

以上是DiffMap:首个利用LDM来增强高精地图构建的网络的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境