搜索
首页科技周边人工智能超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。

本文作者来自中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学2023级博士生,共同作者刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。

简介

DynRefer 通过模拟人类视觉认知过程,显着提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制,DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成(region-level captioning)任务,并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr,显着高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • 论文标题:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • 论文链接:https://arxiv.org/abs/2405.16071
  • 论文代码:https ://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

动机

区域级多模态任务致力于将指定的图像区域转换为符合人类偏好的语言描述。人类完成区域级多模态任务时具有一种分辨率自适应能力,即关注区域是高分辨率的,非关注区域是低分辨率的。然而,目前的区域级多模态大语言模型往往采用固定分辨率编码的方案,即对整张图像进行编码,然后通过 RoI Align 将区域特征提取出来。这种做法缺乏人类视觉认知系统中的分辨率自适应能力,对关注区域的编码效率和能力较低。为了实现高精度的区域级多模态理解,我们提出了一种动态分辨率方案来模拟人类视觉认知系统,如下图所示。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                           图 1:传统的区域级多模态方法(左)与 DynRefer 方法(右)的比较。

方法

1、模拟动态分辨率的图像(Multi-view construction)。由于主流的预训练视觉语言模型(CLIP)只能接收均匀分辨率的输入,我们通过构造多个均匀分辨率的视图来模拟一幅动态分辨率图像。该图像在指代区域具有高分辨率,而在非指代区域低分辨率。具体流程如图 2 上。原始图像 x 被裁剪并调整大小为多个候选视图。裁剪区域的计算方式为 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,其中超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。这里的超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示参考区域的边界框,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示整个图像的尺寸,t 表示插值系数。在训练过程中,我们从候选视图中随机选择 n 个视图,以模拟由于注视和眼球快速运动而生成的图像。这些 n 个视图对应于插值系数 t,即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。我们固定保留仅包含参考区域的视图(即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。经实验证明该视图有助于保留区域细节,对于所有区域多模态任务都至关重要。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                            图 2:DynRefer 训练(上)与 推理(下)。

2、随机动态视图嵌入(Stochastic Multi-view Embedding)。具体流程如图 3 所示。采样的 n 个视图通过冻结的 CLIP 编码成空间特征,然后经过 RoI-Align 模块处理,以获取区域嵌入,即超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。如图 3 左侧所示。由于裁剪、调整大小和 RoI-Align 引入的空间误差,这些区域嵌入在空间上并不对齐。受 deformable convolution 操作启发,我们提出了一个对齐模块,通过将 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA对齐到 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA来减少偏差,其中 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA是仅包含参考区域的视图编码的区域嵌入。对于每个区域嵌入超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,首先将其与 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA连接,然后通过卷积层计算一个二维偏移图。超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的空间特征然后根据二维偏移重新采样。最后,对齐后的区域嵌入沿通道维度连接并通过 linear 层进行融合。输出进一步通过视觉重采样模块,即 Q-former,进行压缩,从而提取原始图像 x 的参考区域 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的区域表示(图 3 中的超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

                             图 3:DynRefer 网络结构

3、视觉语言对齐 (Vision-language Alignment)。通过随机多视图嵌入模块计算得到的区域表示超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,由三个解码器超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA解码,如图 3(右)所示,分别受三个多模态任务的监督:

i) 图像区域标签生成。我们采用基于查询的轻量级识别解码器进行区域标签生成。解码器 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA 如图 3(右侧)所示。通过使用标签作为查询,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA作为键和值,计算预定义标记的置信度来完成标记过程。我们从真值字幕中解析出标签,以监督识别解码器。ii) 区域 - 文本对比学习。类似于区域标记解码器,解码器 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA定义为基于查询的识别解码器。该解码器计算字幕与区域特征之间的相似性分数,使用 SigLIP loss 进行监督。iii) 语言建模。我们采用预训练的大语言模型 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA将区域表示 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA转换为语言描述。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

图 4:双视图(n=2)DynRefer 模型在区域级多模态任务上的表现。在不同的插值系数 t 下,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。视图一是固定的(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),视图二随机选择或固定。

4、在推理过程中,经过训练的 DynRefer 模型通过动态分辨率在图像上执行多模态任务。通过调整采样的 n 个视图的插值系数超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA,我们可以得到具有动态分辨率特性的区域表示。为了评估不同动态分辨率下的特性,我们训练了一个双视图(n=2)的 DynRefer 模型,并在四个多模态任务上进行评估。从图 4 中的曲线可以看出,对于没有上下文信息的视图(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),属性检测(Attribute detection)获得了更好的结果。这可以解释为这种任务通常需要详细的区域信息。而对于区域级字幕(Region-level captioning)和密集字幕生成(Dense captioning)任务,需要上下文丰富的视图( 超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA),以便完整理解参考区域。需要注意的是,过多上下文的视图(超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA)会降低所有任务的性能,因为它们引入了过多与区域无关的信息。当已知任务类型时,我们可以根据任务特性采样适当的视图。当任务类型未知时,我们首先构建一组在不同插值系数 t 下的候选视图集合,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA。从候选集中,通过贪婪搜索算法采样 n 个视图。搜索的目标函数定义为:

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA其中超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示第 i 个视图的插值系数,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示第 i 个视图,pHASH (・) 表示感知图像哈希函数,超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA表示异或操作。为了从全局视角比较视图的信息,我们利用 "pHASH (・)" 函数将视图从空间域转换到频域,然后编码成哈希码。对于超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA这一项,我们减少上下文丰富视图的权重,以避免引入过多冗余信息。

实验

Region-level Captioning

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域字幕生成任务,DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 两个数据集上、在 METEOR 和 CIDEr 两个指标上都显著超过了 CVPR 2024 中的众多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展现出 DynRefer 巨大的性能优势。

Dense Captioning

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在密集字幕生成任务,在 VG1.2 数据集,DynRefer 相较之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域属性检测任务,DynRefer 也取得了 SOTA 的性能。

Open Vocabulary Region Recognition

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

在区域识别任务,DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。

消融实验

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

  • Line 1-6:随机动态多视图要优于固定视图。
  • Line 6-10:通过最大化信息选择视图优于随机选择视图。
  • Line 10-13:多任务训练可以学习得到更好的区域表征。

可视化

下面几张图展示了 DynRefer 的推理结果,DynRefer 可以用一个模型同时输出区域字幕、标签、属性和类别。

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

以上是超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

AI分析师的崛起:为什么这可能是AI革命中最重要的工作AI分析师的崛起:为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦(Andy Macmillan)的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样,原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。