搜索
首页科技周边人工智能微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

在 NLP 领域,大型语言模型(LLM)已经成功地在各种自然语言任务中充当通用接口。只要我们能够将输入和输出转换为文本,就能使得基于 LLM 的接口适应一个任务。举例而言,摘要任务输入文档,输出摘要信息。所以,我们能够将输入文档馈入摘要型语言模型,并生成摘要。

尽管 LLM 在 NLP 任务中取得了成功的应用,但研究人员仍努力将其原生地用于图像和音频等多模态数据。作为智能的基本组成部分,多模态感知是实现通用人工智能的必要条件,无论是对于知识获取还是与现实世界打交道。更重要的是,解锁多模态输入能够极大地拓展语言模型在更多高价值领域的应用,比如多模态机器人、文档智能和机器人技术。

因此,微软团队在论文《Language Is Not All You Need: Aligning Perception with Language Models》中介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(即零样本学习)以及在上下文中学习(即少样本学习)。研究目标是使感知与 LLM 保持一致,如此一来模型能够看到(see)和说话(talk)。研究者按照 METALM(参见论文《Language models are general-purpose interfaces》 )的方式从头开始训练 KOSMOS-1。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

  • 论文地址:https://arxiv.org/pdf/2302.14045.pdf
  • 项目地址:https://github.com/microsoft/unilm

如下图 1 所示,研究者将一个基于 Transformer 的语言模型作为通用接口,并将其与感知模块对接。他们在网页规模的多模态语料库上训练模型,语料库包括了文本数据、任意交错的图像和文本、以及图像字幕对。此外,研究者还通过传输纯语言数据来校准跨模态的指令遵循能力。

最终,KOSMOS-1 模型原生支持零样本和少样本学习设置下的语言、感知语言与视觉任务,具体如下表 1 所示。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

研究者在下图 2 和图 3 中展示了一些生成示例。除了各种自然语言任务,KOSMOS-1 模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像字幕、简单的数学方程式、OCR 和带描述的零样本图像分类。他们还根据瑞文推理测验(Raven's Progressive Matrices, RPM)建立了一个 IQ 测试基准,用来评估 MLLM 的非语言推理能力。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

这些示例表明,多模态感知的原生支持为将 LLM 应用于新任务提供了新的机遇。此外与 LLM 相比,MLLM 实现了更好的常识推理性能,表明了跨模态迁移有助于知识获取。

由于 KOSMOS-1 模型的参数量为 16 亿,因此有网友表示有望在自己的电脑上运行这个多模态大模型。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务


KOSMOS-1:一个多模态大型语言模型

如图 1 所示,KOSMOS-1 是一个多模态语言模型,它既可以感知一般的模态、遵循指令、还能在上下文中学习并生成输出。具体来说,KOSMOS-1 的主干是一个基于 Transformer 的因果语言模型。除了文本之外,其他模态也能被嵌入并输入到该模型中,如下图中,除了语言还有视觉、语音等的嵌入。Transformer 解码器用作多模态输入的通用接口。一旦模型训练完成,KOSMOS-1 在零样本和少样本设置中也能对语言任务和多模态任务进行评估。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

Transformer 解码器以统一的方式感知模态,输入信息会被 flatten 为带有特殊 token 的序列。例如 表示序列开始、 表示序列结束。特殊 token 和 表示编码图像嵌入的开始和结束。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

嵌入模块将文本 token 和其他输入模态编码成向量表示,对于输入 token,该研究使用查找表将其映射到嵌入中。对于连续信号模态(例如,图像和音频),也可以将输入表示为离散编码。

之后,获得的输入序列嵌入会被馈送到基于 Transformer 的解码器。然后因果模型以一种自回归的方式处理序列,从而产生下一个 token。总而言之,MLLM 框架可以灵活地处理各种数据类型,只要将输入表示为向量即可。

模型训练

首先是训练数据集。数据集包括文本语料库、图像 - 字幕对、图像和文本交叉数据集。具体而言,文本语料库包括 The Pile 、Common Crawl (CC);图像 - 字幕对包括 English LAION-2B、LAION-400M、COYO-700M 以及 Conceptual Captions;图像和文本交叉多模态数据集来自 Common Crawl snapshot。

数据集有了,然后是训练设置。MLLM 组件包含 24 层、隐藏维度是 2048、8192 个 FFN 和 32 个注意力头、参数量为 1.3B。为了使模型更好的收敛,图像表示是从具有 1024 个特征维度的预训练 CLIP ViT-L/14 模型获得的。图像在训练过程中被预处理为 224×224 分辨率,此外,训练期间除了最后一层,所有的 CLIP 模型参数被冻结。KOSMOS-1 的参数总数约为 1.6B。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

实验结果

该研究进行了一系列丰富的实验来评价 KOSMOS-1 :语言任务(语言理解、语言生成、 OCR-free 文本分类);跨模态迁移(常识推理);非语言推理( IQ 测试);感知 - 语言任务(图像字幕、视觉问答、网页问答);视觉任务(零样本图像分类、带有描述的零样本图像分类)。

图像字幕。下表给出了不同模型在 COCO 和 Flickr30k 上的零样本性能。相比其他模型,KOSMOS-1 均取得了显著效果,甚至在参数量远小于 Flamingo 的基础上,性能也不错。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

下表为少样本性能对比:

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

视觉问答。KOSMOS-1 比 Flamingo-3B 和 Flamingo-9B 模型具有更高的准确率和鲁棒性:

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

下表为少样本性能对比:

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

IQ 测试。瑞文推理测验是评估非语言推理最常见的测试之一。图 4 显示了一个示例。 

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

表 6 显示了在 IQ 测试数据集上的评估结果。KOSMOS-1 能够在非语言环境中感知抽象概念模式,然后在多个选择中推理出之后的元素。据了解,这是首次有模型可以执行此类零样本 Raven IQ 测试。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

网页问答。网页问答旨在从网页中找到问题的答案。它要求模型既能理解文本的语义,又能理解文本的结构。结果如下:

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

多模态思维链提示。受思维链提示的启发,本文对这方面进行了实验。如图 5 本文将感知语言任务分解为两个步骤。在第一阶段给定图像,使用提示来引导模型生成符合要求的输出,以产生最终结果。

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

从表 9 可以看出,多模态思维链提示的得分为 72.9 分,比标准提示高出 5.8 分:

微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

了解更多实验内容,请参考原论文。

以上是微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
Excel中的数据格式是什么? - 分析VidhyaExcel中的数据格式是什么? - 分析VidhyaApr 14, 2025 am 11:05 AM

介绍 在Excel中有效地处理数据对于分析师来说可能具有挑战性。鉴于关键的业务决策取决于准确的报告,因此格式化错误可能会导致重大问题。本文将帮助您

什么是扩散模型?什么是扩散模型?Apr 14, 2025 am 11:00 AM

潜入扩散模型的世界:综合指南 想象一下,在页面上观看墨水,其颜色巧妙地扩散到了迷人的图案。这种自然扩散过程,其中颗粒从高浓度向低浓度移动

AI中的启发式功能是什么? - 分析VidhyaAI中的启发式功能是什么? - 分析VidhyaApr 14, 2025 am 10:51 AM

介绍 想象一下,浏览复杂的迷宫 - 您的目标是尽快逃脱。 存在几条路径?现在,图片有一张图的地图,该地图突出显示有希望的路线和死胡同。这就是人造中启发式功能的本质

回溯算法的综合指南回溯算法的综合指南Apr 14, 2025 am 10:45 AM

介绍 回溯算法是一种有力的解决问题的技术,可以逐步构建候选解决方案。 这是计算机科学中广泛使用的方法,在丢弃任何Potenti之前,系统地探索了所有可能的途径

5个免费学习统计信息的最佳YouTube频道5个免费学习统计信息的最佳YouTube频道Apr 14, 2025 am 10:38 AM

介绍 统计数据是一项至关重要的技能,适用于学术界。无论您是追求数据科学,进行研究还是简单地管理个人信息,对统计的掌握都是必不可少的。 互联网,尤其是距离

Avbytes:生成AI的主要发展和挑战 - 分析VidhyaAvbytes:生成AI的主要发展和挑战 - 分析VidhyaApr 14, 2025 am 10:36 AM

介绍 嘿,AI爱好者! 欢迎来到AV字节,即您友好的社区来源,以获取AI的所有事物。扣紧了,因为本周在AI世界中一直很疯狂!我们有一些令人震惊的东西

带有Langchain的边缘设备上的自托管抹布应用带有Langchain的边缘设备上的自托管抹布应用Apr 14, 2025 am 10:35 AM

介绍 在我们在Raspberry Pi上构建RAG应用程序的系列文章的第二部分中,我们将在第一部分奠定的基础上扩展,并在该基础上创建并测试了核心管道。在第一部分中,我们将

光标AI:为什么您应该尝试一次? - 分析Vidhya光标AI:为什么您应该尝试一次? - 分析VidhyaApr 14, 2025 am 10:22 AM

介绍 在Andrej Karpathy的病毒推文“英语已成为新的编程语言”之后,这是X上的另一条趋势推文,说:“未来像选项卡”。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。