搜索
首页科技周边人工智能轨迹预测的视觉方法综述

轨迹预测的视觉方法综述

May 22, 2023 pm 11:54 PM
智能视觉

最近一个综述论文 “Trajectory-Prediction With Vision: A Survey ”,来自现代和安波福的公司Motional;不过它参考了牛津大学的综述文章“Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey ”。

预测任务基本分为两部分:1)意图,这是一项分类任务,为智体预先设计一组意图类;通常将其视为一个监督学习问题,需要标注智体可能的分类意图;2)轨迹,需要预测智体在后面未来帧中的一组可能位置,称为路点;这构成了智体之间以及智体和道路之间的交互。

先前的行为预测模型可以分为三类:基于物理、基于机动和交互-感知模型。该句话可以重写为:利用物理模型的动力学方程,为各种不同类型的智能体设计了可人工控制的运动。该方法不能对整个情境的潜在状态进行建模,而通常只关注一个特定的智能体。然而,在深度学习之前的时代,这种趋势曾经是SOTA。基于机动的模型是基于智体预期运动类型的模型。交互-觉察的模型通常是一种基于机器学习的系统,对场景中的每个智体进行逐对推理,并为所有动态智体生成交互-觉察的预测。在场景中附近不同智体目标之间存在高度相关性。对复杂的智体轨迹注意模块进行建模,可以更好泛化。

预测未来的行动或事件可以表现为隐含的形式,其未来轨迹也可以是显式的。智体的意图可能受到以下因素的影响:a)智体自己的信念或意愿(通常不会被观察到,因此难以建模);b) 社会交互,可以用不同的方法进行建模,如社交池化、图神经网络、注意力等;c) 环境约束,如道路布局,可通过高清(HD)地图进行编码;d) 背景信息,形式为RGB图像帧、激光雷达点云、光流、分割图等。在另一方面,轨迹预测是一种更具挑战性的问题,因为它涉及到回归(连续)而不是分类问题,与识别意图不同。

轨迹和意图需要从交互-觉察入手。一个合理的假设是,当试图激进地驶入交通拥堵的高速公路时,一辆经过的车辆可能会紧急制动。建模。 最好在BEV空间进行建模,这样可以进行轨迹预测,而且可以在图像视角(也称为透视图)中建模。这句话可以重写为:“这是因为可以将感兴趣区域(RoI)以网格的形式分配到一个专用的距离范围内。”。然而,由于透视图中的消失线,图像视角理论上可以无限地拓展RoI。BEV空间更适合对遮挡进行建模,因为它能更线性地建立运动模型。通过进行姿态估计(自车的平移和旋转),可以简单地进行自身运动的补偿。此外,这个空间保留了智体的运动和尺度,即不管离自车有多远,周围车辆将占据相同数量的BEV像素;但图像视角的情况并非如此。为了预测未来,需要对过去有一个了解。这通常可以通过跟踪来完成,也可以用历史聚合BEV特征来完成。

下图是预测模型的一些组件和数据流框图:

轨迹预测的视觉方法综述

下表是预测模型的总结:

轨迹预测的视觉方法综述

以下基本从输入/输出入手讨论预测模型:

1)Tracklets:感知模块预测所有动态智体的当前状态。这种状态包括3-D中心、维度、速度、加速度等属性。跟踪器可以利用这些数据并建立临时的关联,这样每个跟踪器都能够保存所有智体的状态历史。现在,每个tracklet都表示该智体过去的运动。由于其输入仅包括稀疏的轨迹,因此这种预测模型形式是最简单的。一个好的跟踪器能够跟踪一个智体,即使在当前帧中被遮挡。由于传统的跟踪器是基于非机器学习的网络,因此实现端到端模型变得十分困难。

2)原始传感器数据:这是一种端到端方法,模型获取原始传感器数据信息,并直接预测场景中每个智体的轨迹预测。这种方法可能有也可能没有辅助输出及其损失来监督复杂的训练。这一类方法的缺点是,用于输入的信息密集,计算上昂贵。这是由于将感知、跟踪和预测三个问题合并在一起,使得模型在开发时变得困难,甚至更难以达到收敛。

3)摄像头-vs- BEV:BEV方法处理来自顶视类似地图的数据,摄像头预测算法从自车角度感知世界,由于多种原因,后者通常比前者更具挑战性;首先,从BEV感知可以获得更广阔的视野和更丰富的预测信息,相比之下摄像头的视野较短,这限制了预测范围,因为汽车无法做视野以外规划;此外,摄像头更容易被遮挡,因此与基于相机的方法相比,BEV方法受到的“部分可观察性”挑战更少;其次,除非激光雷达数据可用,否则单目视觉使算法难以推断关注智体的深度,这是预测其行为的重要线索;最后,摄像头正在移动,这需要处理关注智体的运动和自车的运动,这与静态BEV不同;提一句:作为一种缺点,BEV表征方法仍然存在累积错误的问题;尽管在处理相机视图方面存在固有的挑战,但它仍然比BEV更实用,其实汽车很少能访问显示道路上BEV和关注智体位置的摄像头。结论是,预测系统应该能够从自车的角度看待世界,包括激光雷达和/或立体相机,其数据以3D方式感知世界可能是有利的;另一个重要的相关点是,每次若必须包括关注智体的位置以进行预测时,最好使用边框位置,而不是纯粹的中心点,因为前者的坐标隐含自车和行人之间的相对距离变化以及相机自运动;换句话说,随着智体接近自车,边框变得更大,提供了对深度的附加(尽管是初步的)估计。

4)自运动预测:自车运动进行建模生成更准确的轨迹。另外一些方法使用深度网络或动力学模型对关注智体的运动进行建模,利用从数据集输入计算的额外量,如姿势、光流、语义图和热图。

5)时域编码:由于驾驶环境是动态的,有许多活动智体,因此有必要在智体时间维度进行编码可建立一个更好的预测系统,将过去发生的事情与未来通过现在发生的事情联系起来;了解智体的来源有助于猜测智体下一步可能会去哪里,大多数基于摄像头的模型处理较短的时间范围,而对于较长的时间范围处理,预测模型需要一个更复杂的结构。

6) 社交编码:为了应对“多智体”的挑战,大多数性能最好的算法使用不同类型的图神经网络(GNN)来编码智体之间的社会交互;大多数方法分别对时间和社会维度进行编码——要么从时间层面开始,然后考虑社会层面,要么相反顺序;有一种基于Transformer的模型,可以同时对两个维度进行编码。

7)基于预期目标的预测:行为意图预测与场景上下文一样,通常会受到不同预期目标的影响,并且应该通过解释来推断;对于以预期目标为条件的未来预测,这个目标会被建模为未来状态(定义为目的地坐标)或智体期望的运动类型;神经科学和计算机视觉的研究表明,人通常是目标-导向的智体;此外在做出决策的同时,人遵循一系列连续级的推理,最终制定出短期或长期计划;基于此,这个问题可分为两类:第一类是认知性的,回答智体要去哪里的问题;第二个是任意性的,回答这个智体如何实现其预期目标的问题。

8)多模态预测:由于道路环境是随机的,一个先前的轨迹可以展开不同的未来轨迹;因此,解决“随机弹性(stocasticity)”挑战的实用预测系统会对问题的不确定性进行建模;尽管存在离散变量的潜空间建模的方法,但多模态仅应用于轨迹,完全显示其在意图预测方面的潜力;采用注意力机制,可用于计算加权。

以上是轨迹预测的视觉方法综述的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

AI分析师的崛起:为什么这可能是AI革命中最重要的工作AI分析师的崛起:为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦(Andy Macmillan)的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样,原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器