在自动驾驶技术不断迭代的当下,车辆的行为和轨迹预测对高效、安全驾驶有着极为重要的意义。动力学模型推演、可达性分析等传统的轨迹预测的方法虽然有着形式明晰、可解释性强的优点,但在复杂的交通环境中,其对于环境和物体交互的建模能力较为有限。因此,近年来大量研究和应用都基于各种深度学习方法(例如 LSTM、CNN、Transformer、GNN 等),各类数据集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也纷纷涌现,为训练和评估深度神经网络模型提供了强力支持,不少 SOTA 模型例如 GroupNet、Trajectron++、MultiPath 等都表现出了良好的性能。
以上模型和数据集都集中在正常的道路行驶场景下,并充分利用车道线、交通灯等基础设施和特征辅助预测过程;由于交通法规的限制,绝大多数车辆的运动方式也较为明确。然而,在自动驾驶的 “最后一公里”—— 自动泊车场景下,我们将面对不少新的困难:
在 2022 年 10 月刚刚结束的第 25 届 IEEE 智能交通系统国际会议 (IEEE ITSC 2022) 中,来自加州大学伯克利分校的研究者们发布了首个针对停车场景的高清视频 & 轨迹数据集,并在此数据集的基础上,利用 CNN 和 Transformer 架构提出了名为 “ParkPredict+” 的轨迹预测模型。
数据集由无人机进行采集,总时长为 3.5 小时,视频分辨率为 4K,采样率 25Hz。视野范围覆盖了约 140m x 80m 的停车场区域,共计约 400 个停车位。数据集经过精确标注,共采集到 1216 辆机动车、3904 辆自行车和 3904 位行人的轨迹。
经过重新处理后,轨迹数据可以 JSON 的形式读取,并加载为连接图(Graph)的数据结构:
数据集提供两种下载格式:
仅 JSON(推荐):JSON 文件包含所有个体的类型、形状、轨迹等信息,可以通过开源的 Python API 直接读取、预览、并生成语义图像(Semantic Images)。如果研究目标仅为轨迹和行为预测,JSON 格式可以满足所有的需求。
原视频和标注:如果研究是基于相机原图像(Raw Image)的目标检测、分隔、追踪等机器视觉领域课题,那么可能会需要下载原视频和标注。如有此需要,需要在数据集申请中明确描述该研究需求。另外,标注文件需自行解析。
作为应用示例,在 IEEE ITSC 2022 的论文《ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究团队利用此数据集,基于 CNN 和 Transformer 架构实现了在停车场场景下车辆的意图(Intent)和轨迹(Trajectory)预测。
团队利用 CNN 模型,通过构建语义图像(Semantic Images),实现了对于车辆意图(Intent)分布概率的预测 。该模型仅需要构建车辆局部的环境信息,且可根据当前环境,不断变化可供选择的意图数量。
团队通过改进 Transformer 模型,将意图(Intent)预测结果、车辆的运动历史、周边环境的语义图作为输入提供,实现了多模态(Multi-modal)的意图和行为预测。
以上是伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测的详细内容。更多信息请关注PHP中文网其他相关文章!