搜索
首页科技周边人工智能熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

GPT-4 的识图能力什么时候能上线呢?这个问题目前依然没有答案。

但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

今天要介绍的项目 ——LLaVA(Large Language and Vision Assistant)与之类似,是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

  • 论文链接:https://arxiv.org/pdf/2304.08485.pdf
  • 项目链接:https://llava-vl.github.io/

该模型展示出了一些接近多模态 GPT-4 的图文理解能力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

以下是机器之心的试用结果(更多结果见文末):

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

论文概览

人类通过视觉和语言等多种渠道与世界交互,因为不同的渠道在代表和传达某些概念时都有各自独特的优势,多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态指令,例如视觉或语言的指令,满足人类的意图,在真实环境中完成各种任务。​

为此,社区兴起了对开发基于语言增强的视觉模型的风潮。这类模型在开放世界视觉理解方面具有强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决,在模型设计中隐含地考虑了任务的需求。此外,语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义(人类交流的常见渠道)方面发挥了重要作用,但它导致模型通常具有固定的界面,在交互性和对用户指令的适应性上存在限制。​

另一方面,大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。例如,ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成任务方面的能量,并掀起了开发开源 LLM 的热潮。其中,LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力,与专有 LLM 相比,展示出了令人印象深刻的性能。但遗憾的是,这些模型的输入仅为文本。​

在本文中,研究者提出了视觉 instruction-tuning 方法,首次尝试将 instruction-tuning 扩展到多模态空间,为构建通用视觉助理铺平了道路。

具体来说,本文做出了以下贡献:

  • 多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式;
  • 大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
  • 开源。研究者向公众发布了以下资产:生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

LLaVA 架构​

本文的主要目标是有效利用预训练的 LLM 和视觉模型的功能。网络架构如图 1 所示。本文选择 LLaMA 模型作为 LLM fφ(・),因为它的有效性已经在几个开源的纯语言 instruction-tuning 工作中得到了证明。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

对于输入图像 X_v,本文使用预训练的 CLIP 视觉编码器 ViT-L/14 进行处理,得到视觉特征 Z_v=g (X_v)。实验中使用的是最后一个 Transformer 层之前和之后的网格特征。本文使用一个简单的线性层来将图像特征连接到单词嵌入空间中。具体而言,应用可训练投影矩阵 W 将 Z_v 转换为语言嵌入标记 H_q,H_q 具有与语言模型中的单词嵌入空间相同的维度:

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

之后,得到一系列视觉标记 H_v。这种简单投影方案具有轻量级、成本低等特点,能够快速迭代以数据为中心的实验。也可以考虑连接图像和语言特征的更复杂(但昂贵)的方案,例如 Flamingo 中的门控交叉注意力机制和 BLIP-2 中的 Q-former,或者提供对象级特征的其他视觉编码器,如 SAM。

实验结果

多模态聊天机器人

研究者开发了一个聊天机器人示例产品,以展示 LLaVA 的图像理解和对话能力。为了进一步研究 LLaVA 如何处理视觉输入,展现其处理指令的能力,研究者首先使用 GPT-4 原始论文中的示例,如表 4 和表 5 所示。使用的 prompt 需要贴合图像内容。为了进行比较,本文引用了其论文中多模态模型 GPT-4 的 prompt 和结果。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

令人惊讶的是,尽管 LLaVA 是用一个小的多模态指令数据集(约 80K 的不重复图像)训练的,但它在以上这两个示例上展示了与多模态模型 GPT-4 非常相似的推理结果。请注意,这两张图像都不在 LLaVA 的数据集范围内,LLaVA 能够理解场景并按照问题说明进行回答。相比之下,BLIP-2 和 OpenFlamingo 专注于描述图像,而不是按照用户指令以适当的方式进行回答。更多示例如图 3、图 4 和图 5 所示。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

定量评估结果见表 3。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

ScienceQA

ScienceQA 包含 21k 个多模态多选问题,涉及 3 个主题、26 个话题、127 个类别和 379 种技能,具有丰富的领域多样性。基准数据集分为训练、验证和测试部分,分别有 12726、4241 和 4241 个样本。本文对比了两种有代表性的方法,包括 GPT-3.5 模型(text-davinci-002)和没有思维链(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模态思维链(MM-CoT)[57],这是该数据集上当前的 SoTA 方法,结果如表 6 所示。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

试用反馈

在论文给出的可视化使用页面上,机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人任务。测试表明,数人的时候较小的目标会被忽略,重叠的人也有识别误差,性别也有识别误差。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

接着,我们尝试了一些生成任务,比如为图片起名字,或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容理解,生成方面的能力还有待加强。

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩

在这张照片中,即便人体有重合也依然能准确地识别出人数。从图片描述和理解能力的角度来看,本文的工作还是存在亮点,存在着二创的空间。


以上是熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用