搜索
首页科技周边人工智能基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

引言

如图1所示,现有的三阶段RGB-T单目标跟踪网络通常采用两个独立的特征提取分支,分别负责提取两个模态的特征。然而,相互独立的特征提取分支会导致两个模态在特征提取阶段存在缺乏有效的信息交互。因此,一旦网络完成离线训练,其只能从每个模态图像中提取固定的特征,无法根据实际的模态状态动态调整,以提取更具针对性的动态特征。这一局限性约束了网络对多样的目标双模态外观,以及模态外观之间动态对应关系的适应能力。如图2所示,这种特征提取方式并不适合RGB-T单目标跟踪的实际应用场景,特别是在复杂环境下,因为被跟踪目标的任意性会导致的目标双模态外观多样,并且两个模态之间的动态关系也会随着跟踪环境的变化而变化。三阶段融合跟踪无法很好地适应这种情况,从而导致其有明显的速度瓶颈。

除了基于Transformer的RGB-T单目标跟踪网络都是采用直接相加或级联的方式,将两个模态搜索区域的特征组合在一起,输入预测头,用于输出最终的预测结果。然而,当前RGB-T单目标跟踪数据集提供的视频图像并不是完全对齐的,而且也不是每个模态搜索区域都可以提供有效信息,例如黑夜和热交叉跟踪场景下,RGB模态搜索区域和红外外搜索区域将无法提供有效的目标外观信息,存在大量的背景噪音。因此,直接通过按元素相加或级联的方式融合特征,没有考虑到不同搜索区域融合特征的问题。 为了解决这个问题,本文提出了一种新的方法,称为融合特征选择模块(FFSM)。FFSM模块主要用于选择具有有效信息的目标外观的搜索区域特征。具体来说,FFSM模块首先通过注意力机制学习每个搜索区域特征的权重。然后,根据这些权重对搜索区域特征进行加权求和,得到最终的融合特征。这种机制可以有效地过滤掉无效的背景噪音,并提取出具有较高重要性的目标外观信息,从而改善了RGB-T单目标跟踪性能。 为了验证FFSM模块的有效性,我们在大量的背景噪音存在的情况下进行了实验。实验结果表明,与直接按元素相加或级联的方式相比,使用FFSM模块的RGB-T单目标跟踪网络在目标跟踪中取得了更好的性能。在黑夜和热交叉跟踪场景下,FFSM模块能够准确地选择有效的目标外观信息,提高了目标跟踪的准确性和鲁棒性。 总之,FFSM模块的引入有效地解决了直接融合特征的问题,提高了RGB-T单目标跟踪网络的性能。该方法可以广泛应用于大量背景噪音存在

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 1
基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 2

本文介绍了一种基于Transformer的高效单阶段RGB-T单目标跟踪网络USTrack。其核心是通过联合特征提取、融合和关联建模方法,将三阶段融合跟踪方法的三个功能部分直接统一到一个ViT主干网络中同时执行,从而实现在模态交互下直接提取目标模板和搜索区域的融合特征,并构建两个融合特征之间的关联建模,从而大大提升了跟踪速度和精度。此外,USTrack还设计了一个基于模态可靠性的特征选择机制,该机制通过直接抑制无效模态的产生,可以减少无效模态的干扰,从而减少噪声信息对最终跟踪结果的影响。最终,USTrack创造了当前RGB-T单目标跟踪中最快的速度84.2FPS,并通过两个模态图像中目标的微小位置偏差以及减轻无效模态信息对跟踪结果的影响,大大减少了噪声信息对最终预测结果的影响。

本文的贡献如下:

当前三阶段融合跟踪网络在模态特征提取阶段存在缺乏模态交互的问题。本章提出联合特征提取 & 融合 & 关联建模方法。该方法可以在模态的交互下直接提取目标模板和搜索区域的融合特征,并同时执行两个融合特征之间的关联建模操作。首次为短时RGB-T单目标跟踪网络的设计提供了一种高效且简洁的单阶段融合跟踪范式。

不改变原文意思,调整句子结构,“(2)首次提出基于模态可靠性的特征选择机制,该机制可以根据实际跟踪环境来评估不同模态图像的可靠性,并根据可靠性来丢弃无效模态生成的融合特征,减少噪音信息对最终预测结果的影响,从而进一步提高跟踪性能。”

本文介绍了在三个主流 RGB-T 单目标跟踪基准数据集上的大量实验,表明本文的方法在实现了新的 SoTA 性能的同时,也创造了高达 84.2FPS 的最快跟踪速度。特别是在 VTUAV 短时跟踪器数据集和长时跟踪数据集上,USTrack 在 MPR/MSR 指标上比现有性能最好的方法提高了 11.1%/11.7% 和 11.3%/9.7%。

方法

正如图 3 所示,USTrack 的总体架构由三部分组成:双嵌入层、ViT 主干网和基于模态可靠性的特征选择机制。双嵌入层由两个独立的嵌入层组成。这是考虑到注意力机制是基于相似度去获取全局信息的,并不同模态数据的内在性能,可能会导致两个模态对同一模式有不同的特征表示形式,如果直接通过注意力对模态信息进行融合,这种异质性可能会限制网络对模态状态共享信息的建模能力,从而影响后续的特征融合过程。因此,USTrack 使用两个可学习的嵌入层将不同模态对应的输入映射到一个有利于融合的空间,在一定程度上对两个模态进行模式对齐,降低模态内在性对特征融合的影响。然后,将双嵌入层的所有输出联合作为 ViT 主干网的输入,通过注意力层直接通 过注意力对模态信息进行融合,特征融合以及目标模板融合,统一 RGB-T 跟踪的三个功能阶段,为 RGB-T 跟踪提供一个高效的单阶段跟踪范式。

基于模式可靠性的特征选择机制是一个预测头和两个可靠性评估模块。它允许两个预测头输出不同的结果,并根据模式可靠性的得分,帮助网络选择更适合当前跟踪场景的模式所对应的搜索区域。特征选择机制可用于最终的预测,从而减少无效模式产生的噪声信息对最终预测结果的影响。

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 3

实验结果

USTrack选择GTOT、RGB234以及VTUAV数据集作为测试基准,测试结果如图4所示。我们还以VTUAV为基准,对USTrack在不同挑战场景下的性能进行分析。如图5所示,本文筛选了性能提升最为明显的6个挑战属性。分别为:形变(DEF)、尺度变化(SV)、完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)以及极端光照(EI)。具体来说,形变(DEF)和尺度变化(SV)挑战属性可以有效地展示了目标在跟踪过程中不同外观的差异。完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)和极端光照(EI)挑战属性可以导致相应模态状态的外观发生变化或消失,有效地展示了目标在不同挑战场景中的动态关系。USTrack 在具有这些挑战属性的跟踪场景下取得了最显著的性能提升,可以评估联合特征提取 & 融合 & 关联建模方法可有效缓解三阶段融合跟踪范式中模态特征在提取阶段交互不足的问题,能够更好地适应目标在跟踪过程中不同外观和模态之间的动态关系。

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 4
基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 5

如图 6和所示,为了验证基于模态可靠性的特征选择机制的有效性,我们在 RGBT234 基准数据集上,展开了带有特征选择机制的双预测头结构与几种常见预测头结构的对比实验,并给出了模态可靠性与实际跟踪场景良好对应关系的可视化的结果。

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 6
基于Transformer的高效单阶段短时RGB-T单目标跟踪方法
图 7

总结

本章提出了一个基于 Transformer 的高效单阶段短时 RGB-T 单目标跟踪网USTrack。USTrack 的核心是提出联合特征提取 & 融合 & 关联建模方法,以解决传统三阶段融合跟踪网络在特征提取阶段缺乏模态交互的问题。从而增强跟踪网络了对多样的目标双模态外观和模态外观之间动态对应关系的适应能力。在此基础上,进一步提出了基于模态可靠性的特征选择机制。该机制通过直接摒弃无效模态产生的融合特征,来减少了噪声信息对最终预测结果的影响,从而获得更好的跟踪性能。USTrack 在三个主流数据集上实现了 SoTA 性能,并以 84.2 FPS 的速度创造了最快 RGB-T 跟踪推理速度的新记录。值得注意的是,在目前规模最大的 RGB-T 单目标跟踪基准数据集 VTUAV 上,该方法比现有 SoTA 方法在评估指标 MPR/MSR 上分别增加了 11.1%/11.7% 和 11.3%/9.7%,取得了较大的性能突破,为该基准数据集增添了一个新的功能强大的基线方法。

作者信息

1. 夏坚强

军事科学院国防科技创新研究院硕士研究生。研究兴趣包括视觉图像处理、目标检测、单目标跟踪等。第一作者发表CCF A类会议一篇,获2022年“华为杯”第四届中国研究生人工智能创新大赛华为专项一等奖。

2. 赵健

赵健,中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人、青年科学家,西北工业大学光电与智能研究院研究员,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、具身智能。

围绕无约束视觉感知理解共发表CCF-A类论文32篇,以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文31篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用,产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖(2023)、吴文俊人工智能自然科学奖一等奖(2/5,2022)、新加坡模式识别与机器智能协会(PREMIA)Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖(一作,1/208,CCF-A类会议,2018),7次在国际重要科技赛事中夺冠。

担任北京图象图形学学会理事,国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委,《Pattern Recognition Letters》、《Electronics》特刊客座编辑,VALSE资深领域主席,ACM Multimedia 2021分论坛主席,CICAI 2022/2023领域主席,CCBR 2024论坛主席,中国人工智能学会/中国图象图形学学会高级会员,“挑战杯”大学生科技作品竞赛评委,中国人工智能大赛专家委委员等。

主页:https://zhaoj9014.github.io

论文截图

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

论文链接

https://arxiv.org/abs/2308.13764

代码链接

https://github.com/xiajianqiang

以上是基于Transformer的高效单阶段短时RGB-T单目标跟踪方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
大多数使用的10个功率BI图 - 分析Vidhya大多数使用的10个功率BI图 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

AI的专家系统AI的专家系统Apr 16, 2025 pm 12:00 PM

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

三个最好的氛围编码器分解了这项代码中的AI革命三个最好的氛围编码器分解了这项代码中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

跑道AI的Gen-4:AI蒙太奇如何超越荒谬跑道AI的Gen-4:AI蒙太奇如何超越荒谬Apr 16, 2025 am 11:45 AM

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

如何注册5天ISRO AI免费课程? - 分析Vidhya如何注册5天ISRO AI免费课程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

提示:chatgpt生成假护照提示:chatgpt生成假护照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器