2022年流行“文生图”模型,那2023年流行什么?
机器学习工程师Daniel Bourke的答案是:反过来!
这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。
不仅是基础的“看图说话”功能,写情诗、讲解剧情、给图片中对象设计对话等等,这个AI都拿捏得稳稳的!
比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材和做菜步骤:
甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。
当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!
这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。
最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型。
有网友已经在畅想把接口换成ChatGPT后的强强组合了。
作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。
那么,BLIP-2神奇的地方还有哪些?一起往下看。
理解能力一流
BLIP-2的玩法可以说非常多样了。
只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。
举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:
中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。
给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。
在对人类神态的拿捏上,BLIP-2同样把握得非常准确。
被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。
更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。
让它根据下面的图片写一句浪漫的话:
它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。
这不光理解能力满分,文学造诣也相当强啊!
让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:
猫: 嘿,狗狗,我能骑在你背上吗?
狗: 当然,为什么不呢?
猫: 我已经厌倦了在雪地里行走。
那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?
多项视觉语言任务上实现新SOTA
考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:
从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。
这也意味着,每个人都可以选择自己想用的模型接入使用。
而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。
该Transformer分两个阶段进行预训练:
第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。
为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。
最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。
其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。
而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。
值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:
每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。
研究团队
BLIP-2的研究团队来自Salesforce Research。
第一作者为Junnan Li,他也是一年前推出的BLIP的一作。
目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。
研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。
以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~
论文链接:https://arxiv.org/pdf/2301.12597.pdf
GitHub链接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
参考链接:[1]https://twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107
以上是教ChatGPT学会看图的方法来了的详细内容。更多信息请关注PHP中文网其他相关文章!

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

禅工作室 13.0.1
功能强大的PHP集成开发环境

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

记事本++7.3.1
好用且免费的代码编辑器

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。