最近一个综述论文 “Trajectory-Prediction With Vision: A Survey ”,来自现代和安波福的公司Motional;不过它参考了牛津大学的综述文章“Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey ”。
预测任务基本分为两部分:1)意图,这是一项分类任务,为智体预先设计一组意图类;通常将其视为一个监督学习问题,需要标注智体可能的分类意图;2)轨迹,需要预测智体在后面未来帧中的一组可能位置,称为路点;这构成了智体之间以及智体和道路之间的交互。
先前的行为预测模型可以分为三类:基于物理、基于机动和交互-感知模型。该句话可以重写为:利用物理模型的动力学方程,为各种不同类型的智能体设计了可人工控制的运动。该方法不能对整个情境的潜在状态进行建模,而通常只关注一个特定的智能体。然而,在深度学习之前的时代,这种趋势曾经是SOTA。基于机动的模型是基于智体预期运动类型的模型。交互-觉察的模型通常是一种基于机器学习的系统,对场景中的每个智体进行逐对推理,并为所有动态智体生成交互-觉察的预测。在场景中附近不同智体目标之间存在高度相关性。对复杂的智体轨迹注意模块进行建模,可以更好泛化。
预测未来的行动或事件可以表现为隐含的形式,其未来轨迹也可以是显式的。智体的意图可能受到以下因素的影响:a)智体自己的信念或意愿(通常不会被观察到,因此难以建模);b) 社会交互,可以用不同的方法进行建模,如社交池化、图神经网络、注意力等;c) 环境约束,如道路布局,可通过高清(HD)地图进行编码;d) 背景信息,形式为RGB图像帧、激光雷达点云、光流、分割图等。在另一方面,轨迹预测是一种更具挑战性的问题,因为它涉及到回归(连续)而不是分类问题,与识别意图不同。
轨迹和意图需要从交互-觉察入手。一个合理的假设是,当试图激进地驶入交通拥堵的高速公路时,一辆经过的车辆可能会紧急制动。建模。 最好在BEV空间进行建模,这样可以进行轨迹预测,而且可以在图像视角(也称为透视图)中建模。这句话可以重写为:“这是因为可以将感兴趣区域(RoI)以网格的形式分配到一个专用的距离范围内。”。然而,由于透视图中的消失线,图像视角理论上可以无限地拓展RoI。BEV空间更适合对遮挡进行建模,因为它能更线性地建立运动模型。通过进行姿态估计(自车的平移和旋转),可以简单地进行自身运动的补偿。此外,这个空间保留了智体的运动和尺度,即不管离自车有多远,周围车辆将占据相同数量的BEV像素;但图像视角的情况并非如此。为了预测未来,需要对过去有一个了解。这通常可以通过跟踪来完成,也可以用历史聚合BEV特征来完成。
下图是预测模型的一些组件和数据流框图:
下表是预测模型的总结:
以下基本从输入/输出入手讨论预测模型:
1)Tracklets:感知模块预测所有动态智体的当前状态。这种状态包括3-D中心、维度、速度、加速度等属性。跟踪器可以利用这些数据并建立临时的关联,这样每个跟踪器都能够保存所有智体的状态历史。现在,每个tracklet都表示该智体过去的运动。由于其输入仅包括稀疏的轨迹,因此这种预测模型形式是最简单的。一个好的跟踪器能够跟踪一个智体,即使在当前帧中被遮挡。由于传统的跟踪器是基于非机器学习的网络,因此实现端到端模型变得十分困难。
2)原始传感器数据:这是一种端到端方法,模型获取原始传感器数据信息,并直接预测场景中每个智体的轨迹预测。这种方法可能有也可能没有辅助输出及其损失来监督复杂的训练。这一类方法的缺点是,用于输入的信息密集,计算上昂贵。这是由于将感知、跟踪和预测三个问题合并在一起,使得模型在开发时变得困难,甚至更难以达到收敛。
3)摄像头-vs- BEV:BEV方法处理来自顶视类似地图的数据,摄像头预测算法从自车角度感知世界,由于多种原因,后者通常比前者更具挑战性;首先,从BEV感知可以获得更广阔的视野和更丰富的预测信息,相比之下摄像头的视野较短,这限制了预测范围,因为汽车无法做视野以外规划;此外,摄像头更容易被遮挡,因此与基于相机的方法相比,BEV方法受到的“部分可观察性”挑战更少;其次,除非激光雷达数据可用,否则单目视觉使算法难以推断关注智体的深度,这是预测其行为的重要线索;最后,摄像头正在移动,这需要处理关注智体的运动和自车的运动,这与静态BEV不同;提一句:作为一种缺点,BEV表征方法仍然存在累积错误的问题;尽管在处理相机视图方面存在固有的挑战,但它仍然比BEV更实用,其实汽车很少能访问显示道路上BEV和关注智体位置的摄像头。结论是,预测系统应该能够从自车的角度看待世界,包括激光雷达和/或立体相机,其数据以3D方式感知世界可能是有利的;另一个重要的相关点是,每次若必须包括关注智体的位置以进行预测时,最好使用边框位置,而不是纯粹的中心点,因为前者的坐标隐含自车和行人之间的相对距离变化以及相机自运动;换句话说,随着智体接近自车,边框变得更大,提供了对深度的附加(尽管是初步的)估计。
4)自运动预测:自车运动进行建模生成更准确的轨迹。另外一些方法使用深度网络或动力学模型对关注智体的运动进行建模,利用从数据集输入计算的额外量,如姿势、光流、语义图和热图。
5)时域编码:由于驾驶环境是动态的,有许多活动智体,因此有必要在智体时间维度进行编码可建立一个更好的预测系统,将过去发生的事情与未来通过现在发生的事情联系起来;了解智体的来源有助于猜测智体下一步可能会去哪里,大多数基于摄像头的模型处理较短的时间范围,而对于较长的时间范围处理,预测模型需要一个更复杂的结构。
6) 社交编码:为了应对“多智体”的挑战,大多数性能最好的算法使用不同类型的图神经网络(GNN)来编码智体之间的社会交互;大多数方法分别对时间和社会维度进行编码——要么从时间层面开始,然后考虑社会层面,要么相反顺序;有一种基于Transformer的模型,可以同时对两个维度进行编码。
7)基于预期目标的预测:行为意图预测与场景上下文一样,通常会受到不同预期目标的影响,并且应该通过解释来推断;对于以预期目标为条件的未来预测,这个目标会被建模为未来状态(定义为目的地坐标)或智体期望的运动类型;神经科学和计算机视觉的研究表明,人通常是目标-导向的智体;此外在做出决策的同时,人遵循一系列连续级的推理,最终制定出短期或长期计划;基于此,这个问题可分为两类:第一类是认知性的,回答智体要去哪里的问题;第二个是任意性的,回答这个智体如何实现其预期目标的问题。
8)多模态预测:由于道路环境是随机的,一个先前的轨迹可以展开不同的未来轨迹;因此,解决“随机弹性(stocasticity)”挑战的实用预测系统会对问题的不确定性进行建模;尽管存在离散变量的潜空间建模的方法,但多模态仅应用于轨迹,完全显示其在意图预测方面的潜力;采用注意力机制,可用于计算加权。
以上是轨迹预测的视觉方法综述的详细内容。更多信息请关注PHP中文网其他相关文章!