达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力-人工智能-PHP中文网

首页

科技周边

人工智能

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 17, 2023 am 08:28 AM

ai模型

纯文本大模型方兴未艾，多模态领域也开始涌现出多模态大模型工作，地表最强的 GPT-4 具备读图的多模态能力，但是迟迟未向公众开放体验，于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久，阿里达摩院便推出 mPLUG-Owl ，一个基于模块化实现的多模态大模型。

mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作，延续了 mPLUG 系列的模块化训练思想，把 LLM 升级为一个多模态大模型。在 mPLUG 系列工作中，之前的 E2E-VLP 、mPLUG 、mPLUG-2 分别被 ACL2021 、EMNLP2022、ICML2023 录用，其中 mPLUG 工作在 VQA 榜单首超人类的成绩。

今天要介绍的是 mPLUG-Owl，该工作不仅通过大量 cases 展示出优秀的多模态能力，还第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval，通过人工评测对比了已有模型，包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系统类 MM-REACT 等工作，实验结果表明 mPLUG-Owl 展示出更优的多模态能力，尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

论文链接：https://arxiv.org/abs/2304.14178

代码链接：https://github.com/X-PLUG/mPLUG-Owl

ModelScope体验地址：

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace体验地址：

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模态能力展示

我们把 mPLUG-Owl 与现有工作进行对比来感受一下 mPLUG-Owl 的多模态效果，值得一提的是，该工作中评比的测试样例基本上都来自已有工作，避免了 cherry pick 问题。

下图 6 展示了 mPLUG-Owl 很强的多轮对话能力。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

从图 7 中可以发现， mPLUG-Owl 具有很强的推理能力。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

如图 9 展示了一些笑话解释例⼦。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

在该工作中，除了评测对比外，该研究团队还观察到 mPLUG-Owl 初显一些意想不到的能力，比如多图关联、多语⾔、文字识别和文档理解等能力。

如图 10 所示，虽然在训练阶段并没有进行多图关联数据的训练，mPLUG-Owl 展现出了一定的多图关联能力。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

如图 11 所示，尽管 mPLUG-Owl 在训练阶段仅使用了英文数据，但其展现出了有趣的多语⾔能力。这可能是因为 mPLUG-Owl 中的语⾔模型使用了 LLaMA，从而出现了这一现象。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

尽管 mPLUG-Owl 没有在带有标注的文档数据上进行训练，但其仍然展现出了一定的文字识别和文档理解能力，测试结果如图 12 所示。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

方法介绍

该工作提出的 mPLUG-Owl，其整体架构如图 2 所示。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

模型结构：它由视觉基础模块

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

(开源的 ViT-L)、视觉抽象模块

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

以及预训练语⾔模型

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

( LLaMA-7B) 组成。视觉抽象模块将较⻓的、细粒度的图像特征概括为少量可学习的 Token，从而实现对视觉信息的⾼效建模。⽣成的视觉 Token 与文本查询一起输⼊到语⾔模型中，以⽣成相应的回复。

模型训练：采用两阶段的训练方式

第一阶段：主要目的也是先学习视觉和语⾔模态间的对⻬。不同于先前的工作， mPLUG-Owl 提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。因此 mPLUG-Owl 在第一阶段只冻住 LLM 的参数，采用 LAION-400M， COYO-700M， CC 以及 MSCOCO 训练视觉基础模块和视觉摘要模块。

第⼆阶段：延续 mPLUG 和 mPLUG-2 中不同模态混合训练对彼此有收益的发现，Owl 在第⼆阶段的指令微调训练中也同时采用了纯文本的指令数据 (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模态的指令数据 (150k from LLaVA)。作者通过详细的消融实验验证了引⼊纯文本指令微调在指令理解等方⾯带来的收益。第⼆阶段中视觉基础模块、视觉摘要模块和原始 LLM 的参数都被冻住，参考 LoRA，只在 LLM 引⼊少量参数的 adapter 结构用于指令微调。

实验结果

SOTA 对比

为了比较不同模型的多模态能力，该工作构建一个多模态指令评测集 OwlEval。由于⽬前并没有合适的自动化指标，参考 Self-Intruct 对模型的回复进行人工评测，打分规则为：A="正确且令人满意"；B="有一些不完美，但可以接受"；C="理解了指令但是回复存在明显错误"；D="完全不相关或不正确的回复"。

对比结果如下图 3 所示，实验证明 Owl 在视觉相关的指令回复任务上优于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

多维度能力对比

多模态指令回复任务中牵扯到多种能力，例如指令理解、视觉理解、图⽚上文字理解以及推理等。为了细粒度地探究模型在不同能力上的⽔平，本文进一步定义了多模态场景中的 6 种主要的能力，并对 OwlEval 每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

结果如下表格 6 所示，在该部分实验，作者既进行了 Owl 的消融实验，验证了训练策略和多模态指令微调数据的有效性，也和上一个实验中表现最佳的 baseline— MiniGPT4 进行了对比，结果显示 Owl 在各个能力方⾯都优于 MiniGPT4。

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

以上是达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7？Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B：强大的开源代码推理模型开发以代码为中心的语言模型的竞赛正在加剧，拥抱面孔与强大的竞争者一起参加了比赛：OlympicCoder-7B，一种产品

4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情，而不仅仅是回答问题？我知道我有，最近，我对它的变化感到惊讶。 AI聊天机器人不仅要聊天，还关心创建，研究

Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面（我们必须强调的是，既有强大的核心工具，也有一些不太可靠的模拟工具），我们需要一套新的基础设施能力来管理这些智能体。总部位于德国柏林的流程编排公司Camunda认为，它可以帮助智能AI发挥其应有的作用，并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能，旨在帮助组织建模、部署和管理AI智能体。从实际的软件工程角度来看，这意味着什么？确定性与非确定性流程的融合该公司表示，关键在于允许用户（通常是数据科学家、软件

策划的企业AI体验是否有价值？Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25，我渴望看到Google如何区分其AI产品。有关代理空间（此处讨论）和客户体验套件（此处讨论）的最新公告很有希望，强调了商业价值

如何为抹布找到最佳的多语言嵌入模型？Apr 23, 2025 am 11:44 AM

为您的检索增强发电（RAG）系统选择最佳的多语言嵌入模型在当今的相互联系的世界中，建立有效的多语言AI系统至关重要。强大的多语言嵌入模型对于RE至关重要

麝香：奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射：仔细观察Musk的主张埃隆·马斯克（Elon Musk）最近宣布，特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射，最初出于安全原因部署了一支小型10-20辆汽车，并有快速扩张的计划。 h

AI震惊的枢轴：从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初，我们很多人可能认为它主要用于代劳创意和技术任务，例如编写代码和创作内容。然而，哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作，而是支持、组织，甚至是友谊！报告称，人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。另一方面，营销任务（例如撰写博客、创建社交媒体帖子或广告文案）在流行用途列表中的排名要低得多。这是为什么呢？让我们看看研究结果及其对我们人类如何继续将