搜索
首页科技周边人工智能「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

多模态对比表示(MCR)旨在将来自不同模态的输入编码到一个语义对齐的共享空间中

随着视觉-语言领域中CLIP模型的巨大成功,越来越多的模态对比表征开始出现,并在许多下游任务上取得明显的改善,但这些方法严重依赖于大规模高质量的配对数据

为了解决这个问题,来自浙江大学等机构的研究人员提出了连接多模态对比表示(C-MCR),一种无需配对数据且训练极为高效的多模态对比表征学习方法。

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

请点击以下链接查看论文:https://arxiv.org/abs/2305.14381

C-MCR项目主页链接:https://c-mcr.github.io/C-MCR/

模型和代码地址:https://github.com/MCR-PEFT/C-MCR

该方法在不使用任何配对数据的情况下,通过枢纽模态连接不同的预训练对比表征,我们学习到了强大的音频-视觉和3D点云-文本表征,并在音频-视觉检索、声源定位、3D物体分类等多个任务上取得了SOTA效果。

介绍

多模态对比表示(MCR)旨在将不同模态的数据映射到统一的语义空间中。随着CLIP在视觉-语言领域的巨大成功,学习更多模态组合之间的对比表示已成为一个热门研究课题,吸引了越来越多的关注。

然而,现有多模态对比表示的泛化能力主要受益于大量高质量数据对。这严重限制了对比表征在缺乏大规模高质量数据的模态上的发展。例如,音频和视觉数据对之间的语义相关性往往是模糊的,3D点云和文本之间的配对数据稀缺且难以获得。

不过,我们观察到,这些缺乏配对数据的模态组合,往往和同一个中间模态具有大量高质量配对数据。比如,在音频-视觉领域,尽管视听数据质量不可靠,但音频-文本和文本-视觉之间存在大量高质量的配对数据。

同样,虽然3D点云-文本配对数据的可用性有限,但3D点云-图像和图像-文本数据却非常丰富。这些枢纽模态可以为模式之间建立进一步关联的纽带。

考虑到具有大量配对数据的模态间往往已经拥有预训练的对比表示,本文直接尝试通过枢纽模态来将不同模态间的对比表征连接起来,从而为缺乏配对数据的模态组合构建新的对比表征空间。

使用连接多模态对比表示(C-MCR)可以通过重叠模态来构建已有大量多模态对比表示的连接,从而学习更广泛的模态之间的对齐关系。这个学习过程不需要任何配对数据,并且具有极高的效率

C-MCR具有两个关键优势:

重点在于灵活性:

C-MCR的能力在于为模态学习提供缺乏直接配对的对比表征。从另一个角度来看,C-MCR将每个已有的多模态对比表示空间视为一个节点,并将重叠的模态视为关键的枢纽模态

通过连接各个孤立的多模态对比表征,我们能够灵活地扩展所获得的多模态对齐知识,并挖掘出更广泛的模态间对比表示

2、高效性:

由于C-MCR仅需为已有的表征空间构建连接,因此只用学习两个简单的映射器,其训练参数和训练成本都是极低的。

在这项实验中,我们使用文本作为枢纽,将视觉-文本(CLIP)和文本-音频(CLAP)进行对比表示空间的连接,最终得到了高质量的视觉-音频表示

类似地,通过使用图像连接文本-视觉(CLIP)和视觉-3D点云(ULIP)进行比较来表示空间,也可以得到一组3D点云-文本对比表示

方法

图1 (a) 介绍了C-MCR的算法流程(以使用文本连接CLIP和CLAP为例)。

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

文本(重叠模态)的数据分别被CLIP和CLAP的文本编码器编码为文本特征:、。

同时,还有大量的非配对单模态数据被分别编码到CLIP和CLAP空间中,形成了图像记忆和音频记忆

特征语义增强是指通过对特征进行改进和优化,以提升其语义表达能力的过程。通过对特征进行适当的调整,可以使其更加准确地反映所要表达的含义,从而提高语言表达的效果。特征语义增强技术在自然语言处理领域具有重要的应用价值,可以帮助机器理解和处理文本信息,提高机器在语义理解和语义生成方面的能力

我们可以从提升表征的语义信息出发,以增强空间连接的鲁棒性和全面性。在此方面,我们首先从语义一致性和语义完整性两个角度进行探讨

模态间语义一致性

CLIP和CLAP分别已经学到了可靠的对齐的图像-文本和文本-音频表征。

我们利用CLIP和CLAP中这种内在的模态对齐性来生成与第i个文本语义一致的图像和音频特征,从而更好地量化对比表征空间中的modality gap以及更直接的挖掘非重叠模态间的关联性:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

模态内语义完整性

不同表征空间对于数据的语义表达会有不同的倾向性,因此不同空间下的同一个文本也会不可避免的存在语义偏差和丢失。在连接表示空间时,这种语义偏差会被累积并且放大。

为了增强每个表征的语义完整性,我们提出将零均值高斯噪声添加到表征中,并将它们重新归一化为单位超球面上:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

如图1 (c) 中所示,在对比表征空间中,每个表征可以看代表是在单位超球面上的一个点。添加高斯噪声并重新归一化则使表征能够代表了单位球面上的一个圆。

当两个特征的空间距离越接近时,它们的语义相似度也越高。因此,圆内的特征都具有相似的语义,圆能够更完整地表示语义

2. Inter-MCR的对齐

在表征语义增强之后,我们使用两个映射器  和  来将CLIP和CLAP表征重新映射到一个新的共享空间

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

新空间需要确保来自不同空间的语义相似的表征彼此接近。

来源于同一文本的 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 是天然语义一致的,可以被看做真实标签对,而源自于 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 的 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 可以被视为伪标签对。

(「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 之间的语义高度一致,但从它们中学习到的连接对于音频-视觉来说是间接的。 而(「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR)对的语义一致性虽然不太可靠,但其更直接地有利于音频-视觉表征。

为了更全面地连接两个对比表征空间,我们同时对齐 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 和 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR):

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

3. Intra-MCR的对齐

除了空间之间的连接,对比表征空间内部还存在着modality gap的现象。即在对比表征空间中,不同模态的表征虽然语义对齐,但它们分布在完全不同的子空间中。这意味着从 (「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR,「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR) 学习到的更稳定的连接可能不能很好的被音频-视觉继承。

为了解决这个问题,我们提出重新对齐各个对比表征空间的不同模态表征。具体来说,我们去除对比损失函数中的负例排斥结构,来推导出用于减小modality gap的损失函数。典型的对比损失函数可以表述为:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

我们消除其中的负对排斥项后,最终的公式可以简化为:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

实验

实验上,我们通过使用文本连接音频-文本空间(CLAP)和文本-视觉空间(CLIP)来获得音频-视觉表征,使用图像连接3D点云-图像空间(ULIP)和图像-文本空间(CLIP)来获得3D点云-文本表征。

在AVE和Flickr-SoundNet上进行零样本音频图像检索的结果如下:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

MUSIC-Solo和VGGSS上的零样本声源定位结果如下:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

在Ex-VGGSS和Ex-FlickrNet上的零样本反事实音频图像识别结果如下所示:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

在ModelNet40上的zero-shot 3D点云分类结果如下:

「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR

以上是「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具