原标题:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
论文链接:https://arxiv.org/abs/2312.03031
代码链接:https://github.com/NVlabs/BEV-Planner
作者单位:南京大学 NVIDIA
论文思路:
端到端自动驾驶最近作为一个有前景的研究方向浮现出来,以全栈视角为目标寻求自动化。沿这条线,许多最新的工作遵循开环评估设置在 nuScenes 上研究规划行为。本文通过进行彻底的分析并揭示更多细节中的难题,更深入地探讨了这个问题。本文最初观察到,以相对简单的驾驶场景为特征的 nuScenes 数据集,导致在整合了自车状态(ego status)的端到端模型中感知信息的利用不足,例如自车的速度。这些模型倾向于主要依赖自车状态进行未来路径规划。除了数据集的局限性之外,本文还注意到当前的指标并不能全面评估规划质量,这导致从现有基准中得出的结论可能存在偏见。为了解决这个问题,本文引入了一个新的指标来评估预测的轨迹是否遵循道路。本文进一步提出了一个简单的基线,能够在不依赖感知标注的情况下达到有竞争力的结果。鉴于现有基准和指标的局限性,本文建议学术界重新评估相关的主流研究,并谨慎考虑持续追求最先进技术是否会产生令人信服的普遍结论。
主要贡献:
基于 nuScenes 的开环自动驾驶模型受到自车状态(速度、加速度、偏航角)的显著影响,这些因素在规划性能中起着关键作用。当自车状态参与其中时,模型的轨迹预测主要受其控制,可能导致对感知信息的利用减少。
现有的规划指标可能无法全面评估模型的实际表现。不同指标下模型的评估结果可能存在明显差异。因此,建议引入更多多样化和全面的指标来评估模型的性能,避免模型只在某些指标下表现优异而忽视其他潜在风险。
相较于在现有的 nuScenes 数据集上取得最先进性能,开发更适用的数据集和指标被认为是一项更为关键和紧迫的挑战。
论文设计:
端到端自动驾驶的目标是综合考虑感知和规划,以全栈方式实现[1, 5, 32, 35]。其基本动机在于将自动驾驶车辆(AV)的感知视为实现目标(规划)的手段,而非过度依赖某些感知度量标准进行拟合。
与感知不同,规划通常更加开放式且难以量化[6, 7]。理想情况下,规划的开放式特性将支持闭环评估设置,在该设置中,其他代理可以对自车的行为做出反应,原始传感器数据也可以相应地变化。然而,到目前为止,在闭环模拟器中进行代理行为建模和真实世界数据模拟[8, 19]仍然是具有挑战性的未解决问题。因此,闭环评估不可避免地引入了与现实世界相当大的域差距(domain gaps)。
另一方面,开环评估旨在将人类驾驶视为真实情况,并将规划表述为模仿学习[13]。这种表述允许通过简单的日志回放,直接使用现实世界的数据集,避免了来自模拟的域差距(domain gaps)。它还提供了其他优势,例如能够在复杂和多样的交通场景中训练和验证模型,这些场景在模拟中经常难以高保真度生成[5]。因为这些好处,一个已经建立的研究领域集中于使用现实世界数据集的开环端到端自动驾驶[2, 12, 13, 16, 43]。
目前流行的端到端自动驾驶方法[12, 13, 16, 43]通常使用 nuScenes[2] 来进行其规划行为的开环评估。例如,UniAD[13] 研究了不同感知任务模块对最终规划行为的影响。然而,ADMLP[45] 最近指出,一个简单的MLP网络也能仅依靠自车状态(ego status) 信息,就实现最先进的规划结果。这激发了本文提出一个重要问题:
开环端到端自动驾驶是否只需要自车状态(ego status) 信息?
本文的答案是肯定的也是否定的,这考虑到了在当前基准测试中使用自车状态(ego status) 信息的利弊:
是。自车状态(ego status) 中的信息,如速度、加速度和偏航角,显然应有利于规划任务的执行。为了验证这一点,本文解决了AD-MLP的一个公开问题,并移除了历史轨迹真实值(GTs)的使用,以防止潜在的标签泄露。本文复现的模型,Ego-MLP(图1 a.2),仅依赖自车状态(ego status) ,并且在现有的L2距离和碰撞率指标方面与最先进方法不相上下。另一个观察结果是,只有现有的方法[13, 16, 43],将自车状态(ego status) 信息纳入规划模块中,才能获得与 Ego-MLP 相当的结果。尽管这些方法采用了额外的感知信息(追踪、高清地图等),但它们并未显示出比 Ego-MLP 更优越。这些观察结果验证了自车状态(ego status) 在端到端自动驾驶开环评估中的主导作用。
不是。很明显,作为一个安全至关重要的应用,自动驾驶在决策时不应该仅仅依赖于自车状态(ego status) 。那么,为什么仅使用自车状态(ego status) 就能达到最先进规划结果的现象会发生呢?为了回答这个问题,本文提出了一套全面的分析,涵盖了现有的开环端到端自动驾驶方法。本文识别了现有研究中的主要缺陷,包括与数据集、评估指标和具体模型实现相关的方面。本文在本节的其余部分列举并详细说明了这些缺陷:
数据集不平衡。NuScenes 是一个常用的开环评估任务的基准[11–13, 16, 17, 43]。然而,本文的分析显示,73.9%的 nuScenes 数据涉及直线行驶的场景,如图2所示轨迹分布反映的那样。对于这些直线行驶的场景,大多数时候保持当前的速度、方向或转向率就足够了。因此,自车状态(ego status) 信息可以很容易地被作为一种捷径来适应规划任务,这导致了 Ego-MLP 在 nuScenes 上的强大性能。
现有的评估指标不全面。NuScenes 数据中剩余的26.1%涉及更具挑战性的驾驶场景,可能是规划行为更好的基准。然而,本文认为广泛使用的当前评估指标,如预测与规划真实值之间的L2距离以及自车与周围障碍物之间的碰撞率,并不能准确衡量模型规划行为的质量。通过可视化各种方法生成的众多预测轨迹,本文注意到一些高风险轨迹,如驶出道路可能在现有指标中不会受到严重惩罚。为了回应这一问题,本文引入了一种新的评估指标,用于计算预测轨迹与道路边界之间的交互率(interaction rate)。当专注于与道路边界的交汇率(intersection rates) 时,基准将经历一个实质性的转变。在这个新的评估指标下,Ego-MLP 倾向于预测出比 UniAD 更频繁偏离道路的轨迹。
自车状态(ego status)偏见与驾驶逻辑相矛盾。由于自车状态(ego status) 可能导致过拟合,本文进一步观察到一个有趣的现象。本文的实验结果表明,在某些情况下,从现有的端到端自动驾驶框架中完全移除视觉输入,并不会显著降低规划行为的质量。这与基本的驾驶逻辑相矛盾,因为感知被期望为规划提供有用的信息。例如,在 VAD [16] 中屏蔽所有摄像头输入会导致感知模块完全失效,但如果有自车状态(ego status) 的话,规划的退化却很小。然而,改变输入的自身速度可以显著影响最终预测的轨迹。
总之,本文推测,最近在端到端自动驾驶领域的努力及其在 nuScenes 上的最先进成绩很可能是由于过度依赖自车状态(ego status) ,再加上简单驾驶场景的主导地位所造成的。此外,当前的评估指标在全面评估模型预测轨迹的质量方面还不够。这些悬而未决的问题和不足可能低估了规划任务的潜在复杂性,并且造成了一种误导性的印象,那就是在开环端到端自动驾驶中,自车状态(ego status) 就是你所需要的一切。
当前开环端到端自动驾驶研究中自车状态(ego status) 的潜在干扰引出了另一个问题:是否可以通过从整个模型中移除自车状态(ego status) 来抵消这种影响?然而,值得注意的是,即使排除了自车状态(ego status) 的影响,基于 nuScenes 数据集的开环自动驾驶研究的可靠性仍然存疑。
图1。(a) AD-MLP 同时使用自车状态(ego status) 和过去轨迹的真实值作为输入。本文复现的版本(Ego-MLP)去掉了过去的轨迹。(b) 现有的端到端自动驾驶流程包括感知、预测和规划模块。自车状态(ego status) 可以集成到鸟瞰图(BEV)生成模块或规划模块中。(c) 本文设计了一个简单的基线以便与现有方法进行比较。这个简单的基线不利用感知或预测模块,而是直接基于 BEV 特征预测最终轨迹。
图2。(a) nuScenes 数据集中的自车轨迹热图。(b) nuScenes 数据集中的大多数场景由直行驾驶情况组成。
图3。当前方法[12, 13, 16]忽略了考虑自车的偏航角变化,始终保持0偏航角(由灰色车辆表示),从而导致假阴性(a)和假阳性(b)的碰撞检测事件增加。本文通过估计车辆轨迹的变化来估计车辆的偏航角(由红色车辆表示),以提高碰撞检测的准确性。
图4。本文展示了 VAD 模型(在其规划器中结合了自车状态(ego status) )在各种图像损坏情况下的预测轨迹。给定场景中的所有轨迹(跨越20秒)都在全局坐标系统中呈现。每个三角形标记代表自车的真实轨迹点,不同的颜色代表不同的时间步。值得注意的是,即使输入为空白图像,模型的预测轨迹仍保持合理性。然而,红色框内的轨迹是次优的,如图5中进一步阐述的。尽管对所有环视图像都进行了损坏处理,但为了便于可视化,只显示了初始时间步对应的前视图像。
图5。在开环自动驾驶方法中,从自车的起始位置预测未来轨迹。在模仿学习范式内,预测轨迹理想情况下应该与实际的真实轨迹密切对齐。此外,连续时间步预测的轨迹应保持一致性,从而保证驾驶策略的连续性和平滑性。因此,图4 中红色框显示的预测轨迹不仅偏离了真实轨迹,而且在不同的时间戳上显示出显著的分歧。
图6。对于在其规划器中结合了自车状态(ego status) 的基于VAD的模型,本文在视觉输入保持恒定的情况下,向自车速度引入噪声。值得注意的是,当自车的速度数据被扰动时,结果轨迹显示出显著的变化。将车辆的速度设置为零会导致静止的预测,而速度为100米/秒会导致预测出不切实际的轨迹。这表明,尽管感知模块继续提供准确的周围信息,模型的决策过程过分依赖于自车状态(ego status) 。
图7。BEVFormer在 BEV查询的初始化过程中结合了自车状态(ego status) 信息,这是当前端到端自动驾驶方法[13, 16, 43]未曾涉及的细节。
图8。在 BEV-Planner++ 中引入自车状态(ego status) 信息使得模型能够非常快速地收敛。
图9。比较本文基线的 BEV特征与相应的场景。
实验结果:
论文总结:
本文深入分析了当前开环端到端自动驾驶方法固有的缺点。本文的目标是贡献研究成果,促进端到端自动驾驶的逐步发展。
引用:
Li Z, Yu Z, Lan S, et al. Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?[J]. arXiv preprint arXiv:2312.03031, 2023.
以上是开环端到端自动驾驶中自车状态是你所需要的一切吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

由于AI的快速整合而加剧了工作场所的迅速危机危机,要求战略转变以外的增量调整。 WTI的调查结果强调了这一点:68%的员工在工作量上挣扎,导致BUR

约翰·塞尔(John Searle)的中国房间论点:对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。 想象一个人,对下巴一无所知

与西方同行相比,中国的科技巨头在AI开发方面的课程不同。 他们不专注于技术基准和API集成,而是优先考虑“屏幕感知” AI助手 - AI T

MCP:赋能AI系统访问外部工具 模型上下文协议(MCP)让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持,MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而,实施MCP服务器存在一些挑战,包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者:Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

有远见的企业家采用的六种策略,他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司,同时保持控制权。本指南是针对有抱负的企业家的,旨在建立一个

Google Photos的新型Ultra HDR工具:改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具,将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

技术架构解决了新兴的身份验证挑战 代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题,即传统身份验证方法不是为机器设计的

(注意:Google是我公司的咨询客户,Moor Insights&Strateging。) AI:从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

WebStorm Mac版
好用的JavaScript开发工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

记事本++7.3.1
好用且免费的代码编辑器