阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA-人工智能-PHP中文网

首页

科技周边

人工智能

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

王林

Jan 11, 2024 pm 06:33 PM

产业多模态大模型

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最热的研究方向。

MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进，但是现有的 MLLM 的研究主要关注提升多模态任务的能力，如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。

请点击以下链接查看论文：https://arxiv.org/pdf/2311.04257.pdf
请查看以下代码地址：https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
ModelScope 体验地址：https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
HuggingFace 体验地址链接：https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2

针对这个问题，阿里巴巴的多模态大模型mPLUG-Owl迎来了一次大升级。通过模态协同的方式，它同时提升了纯文本和多模态的性能，超过了LLaVA1.5、MiniGPT4、Qwen-VL等模型，在多种任务中取得了最佳性能。具体来说，mPLUG-Owl2利用共享的功能模块促进了不同模态之间的协作，并引入了模态自适应模块来保留各个模态的特征。通过简洁而有效的设计，mPLUG-Owl2在包括纯文本和多模态任务在内的多个领域取得了最佳性能。对模态协作现象的研究也为未来多模态大模型的发展提供了启示

^{图 1 与现有 MLLM 模型性能对比}

方法介绍为了达到不改变原始意思的目的，需要将内容重新写成中文

mPLUG-Owl2 模型主要包含三个部分：

Visual Encoder：以 ViT-L/14 作为视觉编码器，将输入的分辨率为 H x W 的图像，转换为 H/14 x W/14 的视觉 tokens 序列，输入到 Visual Abstractor 中。
视觉提取器：通过学习一组可用的查询，提取高层次的语义特征，同时减少输入语言模型的视觉序列长度
语言模型：使用了 LLaMA-2-7B 作为文本解码器，并设计了如图 3 所示的模态自适应模块。

^{图 2 mPLUG-Owl2 模型结构}

为了对齐视觉和语言模态，现有的工作通常是将视觉特征映射到文本的语义空间中，然而这样的做法忽视了视觉和文本信息各自的特性，可能由于语义粒度的不匹配影响模型的性能。为了解决这一问题，本文提出模态自适应模块 (Modality-adaptive Module, MAM)，来将视觉和文本特征映射到共享的语义空间，同时解耦视觉 - 语言表征以保留模态各自的独特属性。

^{图3 展示了模态自适应模块的示意图}

在图3中显示的是，与传统的Transformer相比，模态自适应模块的主要设计在于：

在模块的输入、输出阶段，分别对视觉和语言模态进行 LayerNorm 操作，以适应两种模态各自的特征分布。
在自注意力操作中，对视觉和语言模态采用分离的 key 和 value 投影矩阵，但采用共享的 query 投影矩阵，通过这样解耦 key 和 value 投影矩阵，能够在语义粒度不匹配的情况下，避免两种模态之间的干扰。
通过共享相同的FFN，两种模态可以促进彼此之间的协作

^{对于图4 mPLUG-Owl2的训练策略进行优化}

如图 4 所示，mPLUG-Owl2 的训练包含预训练和指令微调两个阶段。预训练阶段主要是为了实现视觉编码器和语言模型的对齐，在这一阶段，Visual Encoder、Visual Abstractor 都是可训练的，语言模型中则只对 Modality Adaptive Module 新增的视觉相关的模型权重进行更新。在指令微调阶段，结合文本和多模态指令数据（如图 5 所示）对模型的全部参数进行微调，以提升模型的指令跟随能力。

^{图 5 mPLUG-Owl2 使用的指令微调数据}

实验及结果

^{图 6 图像描述和 VQA 任务性能} 阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

^{图 7 MLLM 基准测试性能}

如图 6、图 7 所示，无论是传统的图像描述、VQA 等视觉 - 语言任务，还是 MMBench、Q-Bench 等面向多模态大模型的基准数据集上，mPLUG-Owl2 都取得了优于现有工作的性能。

^{图 8 纯文本基准测试性能}

^{图 9 模态自适应模块对纯文本任务性能的影响}

此外，为了评估模态协同对纯文本任务的影响，作者还测试了 mPLUG-Owl2 在自然语言理解和生成方面的表现。如图 8 所示，与其他指令微调的 LLM 相比，mPLUG-Owl2 取得了更好的性能。图 9 展示的纯文本任务上的性能可以看出，由于模态自适应模块促进了模态协作，模型的考试和知识能力都得到了显著提高。作者分析，这是由于多模态协作使得模型能够利用视觉信息来理解语言难以描述的概念，并通过图像中丰富的信息增强模型的推理能力，并间接强化文本的推理能力。

mPLUG-Owl2 展示了出色的多模态理解能力，成功地缓解了多模态幻觉。这种多模态技术已经被应用于通义星尘、通义智文等核心通义产品，并且已经在 ModelScope、HuggingFace 开放 Demo 中得到了验证

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

以上是阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

AI内部部署的隐藏危险：治理差距和灾难性风险Apr 28, 2025 am 11:12 AM

Apollo Research的一份新报告显示，先进的AI系统的不受检查的内部部署构成了重大风险。在大型人工智能公司中缺乏监督，普遍存在，允许潜在的灾难性结果

构建AI测谎仪Apr 28, 2025 am 11:11 AM

传统测谎仪已经过时了。依靠腕带连接的指针，打印出受试者生命体征和身体反应的测谎仪，在识破谎言方面并不精确。这就是为什么测谎结果通常不被法庭采纳的原因，尽管它曾导致许多无辜者入狱。相比之下，人工智能是一个强大的数据引擎，其工作原理是全方位观察。这意味着科学家可以通过多种途径将人工智能应用于寻求真相的应用中。一种方法是像测谎仪一样分析被审问者的生命体征反应，但采用更详细、更精确的比较分析。另一种方法是利用语言标记来分析人们实际所说的话，并运用逻辑和推理。俗话说，一个谎言会滋生另一个谎言，最终

AI是否已清除航空航天行业的起飞？Apr 28, 2025 am 11:10 AM

航空航天业是创新的先驱，它利用AI应对其最复杂的挑战。现代航空的越来越复杂性需要AI的自动化和实时智能功能，以提高安全性，降低操作

观看北京的春季机器人比赛Apr 28, 2025 am 11:09 AM

机器人技术的飞速发展为我们带来了一个引人入胜的案例研究。来自Noetix的N2机器人重达40多磅，身高3英尺，据说可以后空翻。Unitree公司推出的G1机器人重量约为N2的两倍，身高约4英尺。比赛中还有许多体型更小的类人机器人参赛，甚至还有一款由风扇驱动前进的机器人。数据解读这场半程马拉松吸引了超过12,000名观众，但只有21台类人机器人参赛。尽管政府指出参赛机器人赛前进行了“强化训练”，但并非所有机器人均完成了全程比赛。冠军——由北京类人机器人创新中心研发的Tiangong Ult

镜子陷阱：人工智能伦理和人类想象力的崩溃Apr 28, 2025 am 11:08 AM

人工智能以目前的形式并不是真正智能的。它擅长模仿和完善现有数据。我们不是在创造人工智能，而是人工推断 - 处理信息的机器，而人类则

新的Google泄漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份报告发现，在谷歌相册Android版7.26版本的代码中隐藏了一个更新的界面，每次查看照片时，都会在屏幕底部显示一行新检测到的面孔缩略图。新的面部缩略图缺少姓名标签，所以我怀疑您需要单独点击它们才能查看有关每个检测到的人员的更多信息。就目前而言，此功能除了谷歌相册已在您的图像中找到这些人之外，不提供任何其他信息。此功能尚未上线，因此我们不知道谷歌将如何准确地使用它。谷歌可以使用缩略图来加快查找所选人员的更多照片的速度，或者可能用于其他目的，例如选择要编辑的个人。我们拭目以待。就目前而言