如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。
利用视频内容进行建模之后,就可以在整段视频当中自由搜索了。
而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的进展——
过去TAL中的建模是片段甚至实例级的,而现在只要视频里的一帧就能实现,效果媲美全监督。
来自华中科技大学的团队提出了一种名为HR-Pro的新框架,用于点标注监督的时序行为检测。
通过多层级的reliability propagation,HR-Pro可以网络学习到更具辨别力的片段级特征和更可靠的实例级边界。
HR-Pro由两个可靠性感知的阶段组成,它能够有效地从片段级别和实例级别的点标注中传播高置信度的线索,从而使网络学习到更具区分性的片段表示和更可靠的提议。
在多个基准数据集上进行的实验表明,HR-Pro优于现有方法,结果最先进,证明了其有效性和点标注的潜力。
表现比肩全监督方式
下图展示了HR-Pro与LACP在THUMOS14测试视频上进行时序行为检测表现比较。
HR-Pro展现出更了准确的动作实例检测,具体来说:
- 对于“高尔夫挥杆”行为,HR-Pro有效地区分了行为和背景片段,减轻了LACP难以处理的False Positive预测;
- 对于铁饼投掷行为,HR-Pro检测到比LACP更完整的片段,后者在非区分性动作片段上具有较低的激活值。
数据集上的测试结果,也印证了这一直观感受。
将THUMOS14数据集上的检测结果可视化后可以观察到,在实例级别完整性学习之后,高质量预测和低质量预测之间的差异显著增大。
(左侧是实例级别完整性学习之前的结果,右侧是学习之后的结果。横轴和纵轴分别表示时间和可靠性分数。)
整体来看,在常用4个数据集中,HR-Pro的性能均大幅超越最先进的点监督方法,在THUMOS14数据集上的平均mAP达到60.3%,相较之前的SoTA方法(53.7%)的提升为6.5%,并且能与一些全监督方法达到相当的效果。
在THUMOS14测试集上与下表中的先前最先进方法相比,对于IoU阈值在0.1到0.7之间,HR-Pro的平均mAP为60.3%,比先前最先进方法CRRC-Net高6.5%。
并且HR-Pro能够与具有竞争力的全监督方法达到相当的表现,例如AFSD(对于IoU阈值在0.3到0.7之间,平均mAP为51.1% vs. 52.0%)。
△HR-Pro与前SOTA方法在THUMOS14数据集上的对比
在各种基准数据集上的通用性和优越性方面,HR-Pro也明显优于现有方法,在GTEA、BEOID和ActivityNet 1.3上分别取得了3.8%、7.6%和2.0%的提高。
△HR-Pro与前SOTA方法在GTEA等数据集上的对比
那么,HR-Pro具体是如何实现的呢?
学习分两阶段进行
研究团队提出了多层级可靠传播方法,在片段级引入可靠片段记忆模块并利用交叉注意力的方法向其他片段传播,在实例级提出基于点监督的提议生成来关联片段和实例,用于产生不同可靠度的proposals,进一步在实例级优化proposals的置信度和边界。
HR-Pro的模型结构如下图所示:时序行为检测被划分为两阶段的学习过程,即片段级别的判别性学习和实例级别的完整性学习。
阶段一:片段级判别学习
研究团队引入可靠性感知的片段级判别学习,提出为每个类别存储可靠原型,并通过视频内和视频间的方式将这些原型中的高置信度线索传播到其他片段。
片段级可靠原型构建
为了构建片段级别的可靠原型,团队创建了一个在线更新的原型memory,用于存储各类行为的可靠原型mc(其中 c = 1, 2, …, C),以便能够利用整个数据集的特征信息。
研究团队选择了具有点标注的片段特征初始化原型:
接下来,研究人员使用伪标记的行为片段特征来更新每个类别的原型,具体表述如下:
片段级可靠性感知优化
为了将片段级可靠原型的特征信息传递到其他片段,研究团队设计了一个Reliabilty-aware Attention Block(RAB),通过交叉注意力的方式实现了将原型中的可靠信息注入到其他的片段中,从而增强片段特征的鲁棒性,并增加对较不具有判别力片段的关注。
为了学习到更加具有判别里的片段特征,团队还构建了可靠性感知的片段对比损失:
阶段二:实例级完整性学习
为了充分探索实例级别行为的时序结构并优化提议的得分排名,团队引入了实例级别的动作完整性学习。
这种方法旨在通过可靠的实例原型的指导,通过实例级别的特征学习来精化提议的置信度得分和边界。
实例级可靠原型构建
为了在训练过程中利用点标注的实例级别先验信息,团队提出了一种基于点标注的提议生成方法用于生成不同Reliability的proposals。
根据其可靠性分数和相对点标注的时序位置,这些提议可以分为两种类型:
- 可靠提议(Reliable Proposals, RP):对于每个类别中的每个点,提议包含了这个点,并具有最高的可靠性;
- 正样本提议(Positive Proposals, PP):所有其余的候选提议。
为确保正样本和负样本数量平衡,研究团队将那些具有类别无关的注意力分数低于预定义值的片段分组为负样本提议(Negative Proposals, NP)。
实例级可靠性感知优化
为了预测每个提议的完整性分数,研究团队将敏感边界的提议特征输入至得分预测头φs:
然后用正/负样本提议与可靠提议的IoU作为指导,监督提议的完整性分数预测:
为了获得更准确边界的行为proposal,研究者将每个PP中的proposal的起始区域特征和结束区域特征输入到回归预测头φr中,以预测proposal开始和结束时间的偏移量。
进一步计算得到精细化的proposals,并希望精细化后的proposals与可靠proposal重合。
总之,HR-Pro只需很少的标注就能很好的效果大幅度降低了获取标签的成本,同时又拥有较强的泛化能力,为实际部署应用提供了有利条件。
据此,作者预计,HR-Pro将在行为分析、人机交互、驾驶分析等领域拥有广阔的应用前景。
论文地址:https://arxiv.org/abs/2308.12608
以上是单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!

隐藏者的开创性研究暴露了领先的大语言模型(LLM)的关键脆弱性。 他们的发现揭示了一种普遍的旁路技术,称为“政策木偶”,能够规避几乎所有主要LLMS

对环境责任和减少废物的推动正在从根本上改变企业的运作方式。 这种转变会影响产品开发,制造过程,客户关系,合作伙伴选择以及采用新的

最近对先进AI硬件的限制突出了AI优势的地缘政治竞争不断升级,从而揭示了中国对外国半导体技术的依赖。 2024年,中国进口了价值3850亿美元的半导体

从Google的Chrome剥夺了潜在的剥离,引发了科技行业中的激烈辩论。 OpenAI收购领先的浏览器,拥有65%的全球市场份额的前景提出了有关TH的未来的重大疑问

尽管总体广告增长超过了零售媒体的增长,但仍在放缓。 这个成熟阶段提出了挑战,包括生态系统破碎,成本上升,测量问题和整合复杂性。 但是,人工智能

在一系列闪烁和惰性屏幕中,一个古老的无线电裂缝带有静态的裂纹。这堆积不稳定的电子设备构成了“电子废物土地”的核心,这是身临其境展览中的六个装置之一,&qu&qu

Google Cloud的下一个2025:关注基础架构,连通性和AI Google Cloud的下一个2025会议展示了许多进步,太多了,无法在此处详细介绍。 有关特定公告的深入分析,请参阅我的文章

本周在AI和XR中:一波AI驱动的创造力正在通过从音乐发电到电影制作的媒体和娱乐中席卷。 让我们潜入头条新闻。 AI生成的内容的增长影响:技术顾问Shelly Palme


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具