写在前面&笔者的个人理解
实时根据传感器数据构建向量化高精地图对于预测和规划等下游任务至关重要,可以有效弥补离线高精地图实时性差的缺点。随着深度学习的发展,在线向量化高精地图构建逐渐兴起,代表性的工作如HDMapNet,MapTR等相继涌现。然而,现有的在线向量化高精地图构建方法缺乏对地图元素几何性质(包括元素的形状,垂直、平行等几何关系)的探索。
向量化高精地图的几何性质
向量化高精地图对道路上的元素进行了高度抽象,将每一个地图元素表示为二维点序列。而城市道路的设计具有特定的规范,例如,人行横道在多数情况下表现为方正的矩形或平行四边形;在不涉及分流合流的路段,相邻的两条车道互相平行。高精地图中不同元素还具有许多类似的特点,这些常识性的规律,抽象为高精地图的几何性质,包括地图元素的形状(矩形、平行四边形、直线等),或者不同地图元素之间的关联(平行、垂直等)。几何性质强有力地约束着地图元素的表现形式,在线构建模型如果充分理解了几何性质,就能得到更精确的结果。
提出针对高精地图的几何表示的重要性
尽管理论上现有模型仍可能学到地图元素的几何性质,然而,几何性质的特点决定了至少在传统的设计下,模型并不容易学到。
- 几何性质的不变性
中心车辆在道路上直线行驶,变道,或者转弯时,(在车辆坐标系下)地图元素的绝对坐标不断发生变化。而人行横道、车道、道路边界等的形状并不会随之改变;类似的,车道之间平行关系也不会改变。地图元素的几何性质是客观的,它的一个重要特点就是不变性。更具体的,是刚性不变性(对旋转、平移变换保持不变)。以往的工作,不论是使用朴素的折线表示,还是使用带控制点的多项式曲线(比如贝塞尔曲线、分段贝塞尔曲线),都基于绝对坐标,并在绝对坐标基础上端到端优化。基于绝对坐标的优化目标本身不具备刚性不变性,因此很难期待模型陷入的局部最优解包含对几何性质的理解。因此,一种能充分刻画几何性质且具有一定不变性的表示是必要的。
图1. 几何不变性的示例。
车辆右转时,绝对坐标会发生明显的变化。右图展示了一个对应的真实场景。
- 几何性质的多样性
此外,尽管具有强烈的先验知识,道路的几何性质仍然是多样的。这些多样的几何性质总体上可以分为两大类,一类是关于单个地图元素的几何形状,一类是关于不同地图元素的几何关联。由于几何性质的多样性,穷举并人工地将几何性质转变为约束是不可能的,因此我们更希望模型能够端到端地自主学习多样的几何性质。
GeMap的设计
几何表示
针对上述两个问题,我们首先改进表示方法。我们希望在传统的基于绝对坐标的表示之外,引入一种良好的几何表示,它需要满足:
- 能刻画地图元素的形状
- 能刻画地图元素之间的关联
- 刚性不变性
为保证平移不变性,我们使用了相对量,即点之间的偏移向量;为进一步保证旋转不变性,我们选择了偏移向量的长度,以及不同偏移向量之间的夹角。这二者——长度和夹角——构成了我们提出的几何表示的基础。此外,为了更好地区分并刻画形状、关联两类不同的几何性质,我们还按照从简的原则进一步细化了设计:
为刻画形状,我们计算单个地图元素中相邻点之间的偏移向量,并计算偏移向量长度、相邻偏移向量之间的夹角。这一表示能够唯一确定任意的折线/多边形。两个形象的例子如下图所示:
请看图2,它展示了几何形状的表示方式
对于一个矩形,使用一个直角和两对相等的边就可以描述;对于一条直线,所有的夹角均为0度或者180。
为刻画关联,类似地,我们首先考虑了任意两点之间的距离。然而,如果对所有点对点的偏移向量两两计算夹角,表示的复杂度过高,且计算代价不可承受。具体地,假设一共有个地图元素,每个元素使用个个点来表示,那么所有夹角的数据量将达到(取1000时,假设每一个角度数据都是32位浮点数,这样的表示仅占据的空间将达到TB级别)。事实上,对于一般的垂直、平行等关系来说这不是必要的。因此,我们先计算元素内部的偏移,然后仅对这些偏移计算两两之间的夹角作为几何表示的一部分。这种简化的关联表示保留了对平行、垂直等关系的描述能力,同时所对应的数据量仅为(前述条件下,大致4MB)。为了便于理解,我们同样提供了一些例子:
图3. 几何关联表示。
平行关系和垂直关系的表示方式是偏移向量的夹角为0度或90度;从两点之间的距离可以一定程度上反映车道的宽度信息
为优化几何形状和关联的表示,我们采用最朴素的做法,直接计算预测和标签的几何表示,然后用范数作为优化目标:
这里和分别表示根据标签计算得到的长度和夹角,和则表示根据预测计算得到的长度和夹角。在处理夹角时使用了一个技巧:直接计算角度涉及到不连续的arctan函数,在优化时会遇到困难(在±90度附近存在梯度消失的问题),因此我们实际上比较的是夹角的余弦和正弦值:
几何学的基础是角度和距离,因此我们常用“欧几里得损失”来形象地表示对应的几何损失,这也代表了该损失对旋转和平移变换的鲁棒性
几何解耦注意力
一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质不加区分。
在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果。
为了将几何形状和关联处理解耦,我们采用了自注意力的两个步骤:
- 每个地图元素包括个查询,在这个查询内部进行注意力,用以处理几何形状
- 补充跨元素的注意力关系,用以处理几何关联
几何解耦的注意力可以通过下图更形象地表示。我们的实现方法相对简单,直接使用掩码来控制注意力的范围。由于这两种类型的注意力是互补的,因此通过合理的实现,时间复杂度有可能等同于进行单次自注意力
图4. 几何解耦注意力。
左侧为单个元素内部进行的形状注意力,右侧为元素之间进行的关联注意力。
实验结果
我们在nuScenes和Argoverse 2两个数据集上进行了大量实验。二者都是常用的大规模自动驾驶数据集,且都提供了地图标注。
主要结果
我们在nuScenes上进行了三组实验。首先,我们使用了一种较为纯粹的目标函数组合,仅包括几何损失和其他必要的损失(如点到点距离、边的方向、分类),这种组合旨在突显我们提出的几何性质的重要价值,而不过分追求SOTA的结果。结果显示,在这种情况下,与MapTR相比,我们的方法在mAP上有所提升。为了探索GeMap的极限,我们还添加了一些辅助目标,包括分割和深度估计。在这种情况下,我们也取得了SOTA的结果(mAP提升)。值得注意的是,实现这样的提升并不需要牺牲太多的推理速度。最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的帮助下,GeMap的性能进一步提升
同样,在Argoverse 2数据集上,我们的方法也取得了非常突出的效果。
重写的内容是:消融实验
在nuScenes上进一步进行的重写的内容是:消融实验证明了几何损失和几何解耦注意力的价值。有趣的是,正如我们所预料的,直接使用几何损失反而会带来模型表现的下降。我们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用(从”+Euclidean Loss“到”Full“)。
更多结果
除此之外,我们还对nuScenes进行了可视化分析。通过可视化结果可以看出,GeMap不仅在处理旋转和平移方面具有鲁棒性,还在解决遮挡问题方面表现出了一定的优势,如下图所示。挑战性的地图元素在图中用橘色方框标出
图5. 可视化对比结果。
在下雨天的实验结果中,我们也对遮挡的鲁棒性进行了定量验证(见下表)。这是因为雨水会天然地对相机造成遮挡
这可以解释为模型学习到了几何性质,因此即使有遮挡,也能更好地猜测地图元素。例如,模型理解了车道线的形状,那么只需要"看到"一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此即使其中一条被遮挡,也能根据平行关系和宽度因素猜测被遮挡的部分
总结
我们指出了地图元素所具有的几何性质,以及其对于在线向量化高精地图构建的价值。基于此,我们提出了一种强有力的方法,初步对这一价值进行了验证。此外,GeMap表现出的对遮挡的鲁棒性,或许预示着在其它自动驾驶任务(例如检测、占有预测等)中利用几何性质处理遮挡的思路——因为车辆和道路都具有相对规范的几何性质。当然,我们的方法本身也有很多可以进一步探索的地方。比如不同复杂度的几何元素是否可以适应性地使用不同的点来描述?是否能从概率的角度出发理解几何表示,让其对噪音更具鲁棒性?因为我们对于元素关联进行了简化,那么是否存在更好的几何关联的表示方法?这些都是进一步优化的方向。
需要重写的内容是:https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg 的链接
以上是首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新的详细内容。更多信息请关注PHP中文网其他相关文章!

经常使用“ AI-Ready劳动力”一词,但是在供应链行业中确实意味着什么? 供应链管理协会(ASCM)首席执行官安倍·埃什肯纳齐(Abe Eshkenazi)表示,它表示能够评论家的专业人员

分散的AI革命正在悄悄地获得动力。 本周五在德克萨斯州奥斯汀,Bittensor最终游戏峰会标志着一个关键的时刻,将分散的AI(DEAI)从理论转变为实际应用。 与闪闪发光的广告不同

企业AI面临数据集成挑战 企业AI的应用面临一项重大挑战:构建能够通过持续学习业务数据来保持准确性和实用性的系统。NeMo微服务通过创建Nvidia所描述的“数据飞轮”来解决这个问题,允许AI系统通过持续接触企业信息和用户互动来保持相关性。 这个新推出的工具包包含五个关键微服务: NeMo Customizer 处理大型语言模型的微调,具有更高的训练吞吐量。 NeMo Evaluator 提供针对自定义基准的AI模型简化评估。 NeMo Guardrails 实施安全控制,以保持合规性和适当的

AI:艺术与设计的未来画卷 人工智能(AI)正以前所未有的方式改变艺术与设计领域,其影响已不仅限于业余爱好者,更深刻地波及专业人士。AI生成的艺术作品和设计方案正在迅速取代传统的素材图片和许多交易性设计活动中的设计师,例如广告、社交媒体图片生成和网页设计。 然而,专业艺术家和设计师也发现AI的实用价值。他们将AI作为辅助工具,探索新的美学可能性,融合不同的风格,创造新颖的视觉效果。AI帮助艺术家和设计师自动化重复性任务,提出不同的设计元素并提供创意输入。 AI支持风格迁移,即将一种图像的风格应用

Zoom最初以其视频会议平台而闻名,它通过创新使用Agentic AI来引领工作场所革命。 最近与Zoom的CTO XD黄的对话揭示了该公司雄心勃勃的愿景。 定义代理AI 黄d

AI会彻底改变教育吗? 这个问题是促使教育者和利益相关者的认真反思。 AI融入教育既提出了机遇和挑战。 正如科技Edvocate的马修·林奇(Matthew Lynch)所指出的那样

美国科学研究和技术发展或将面临挑战,这或许是由于预算削减导致的。据《自然》杂志报道,2025年1月至3月期间,美国科学家申请海外工作的数量比2024年同期增加了32%。此前一项民意调查显示,75%的受访研究人员正在考虑前往欧洲和加拿大寻找工作。 过去几个月,数百项NIH和NSF的拨款被终止,NIH今年的新拨款减少了约23亿美元,下降幅度接近三分之一。泄露的预算提案显示,特朗普政府正在考虑大幅削减科学机构的预算,削减幅度可能高达50%。 基础研究领域的动荡也影响了美国的一大优势:吸引海外人才。35

Openai推出了强大的GPT-4.1系列:一个专为现实世界应用设计的三种高级语言模型家族。 这种巨大的飞跃提供了更快的响应时间,增强的理解和大幅降低了成本


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

Atom编辑器mac版下载
最流行的的开源编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6
视觉化网页开发工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。