多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率
最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。
具体来说,该研究提出了一个名为Mirasol3B的多模态模型。Mirasol3B由时间同步的音频和视频自回归组件以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐,但是按照顺序排列
论文地址:https://arxiv.org/abs/2311.05698
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
方法简介
Mirasol3B 是一个音频 - 视频 - 文本多模态模型,其中将自回归建模解耦成时间对齐模态(例如音频、视频)的自回归组件,以及针对非时间对齐的上下文模态(例如文本)的自回归组件。Mirasol3B 使用交叉注意力权重来协调这些组件的学习进程。这种解耦使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。
根据图1所示,Mirasol3B由两个主要的学习组件组成:自回归组件和输入组合组件。其中,自回归组件旨在处理几乎同步的多模态输入,例如视频和音频,以便及时地进行输入组合
在重写内容时,需要将原始意思保持不变,并将语言改写为中文。 研究提出将时间对齐的模态分割成时间段,在时间段中学习音频-视频联合表征。具体而言,该研究提出了一种名为「Combiner」的模态联合特征学习机制。「Combiner」将同一时间段内的模态特征进行融合,生成更紧凑的表征
「Combiner」从原始的模态输入中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特征,模型可以在不同的速率接收多模态输入,在处理较长的视频时表现良好。
「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自回归模型,学习长期依赖关系。
为了处理视频和音频信号,并适应更长的视频 / 音频输入,它们被分割成(在时间上大致同步)的小块,再通过「Combiner」学习联合视听表示。第二个组件处理上下文,或时间上未对齐的信号,如全局文本信息,这些信息通常仍然是连续的。它也是自回归的,并使用组合的潜在空间作为交叉注意力输入。
学习组件包含视频和音频,其参数为3B;而没有音频的组件则为2.9B。其中,大多数参数用于音视频自回归模型。Mirasol3B通常处理128帧的视频,也可以处理更长的视频,例如512帧
由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。
实验及结果
该研究在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了测试评估。
在 VideoQA 数据集 MSRVTTQA 上的测试结果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。
在长视频问答方面,该研究在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了测试评估,结果如下表 2 所示:
在最后,该研究选择了KineticsSound、VGG-Sound和Epic-Sound进行音频-视频基准测试,并采用开放式生成评估。实验结果如下表3所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上是规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B的详细内容。更多信息请关注PHP中文网其他相关文章!

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。 一个关键要素是建立了AI Gigafactories网络,每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软对AI代理申请的统一方法:企业的明显胜利 微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。 与许多技术公告陷入困境不同

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

IBM的Z17大型机:集成AI用于增强业务运营 上个月,在IBM的纽约总部,我收到了Z17功能的预览。 以Z16的成功为基础(于2022年推出并证明持续的收入增长

解锁不可动摇的信心,消除了对外部验证的需求! 这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。 只需复制,粘贴和自定义包围

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相,展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。 窥探内部:Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展,该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么,而是理解它在人工神经元层面如何做到这一点。 想象一下,试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A

高通的龙翼:企业和基础设施的战略飞跃 高通公司通过其新的Dragonwing品牌在全球范围内积极扩展其范围,以全球为目标。 这不仅仅是雷布兰


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

Atom编辑器mac版下载
最流行的的开源编辑器

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3汉化版
中文版,非常好用