搜索
首页科技周边人工智能AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」

Diffusion模型的最新进展在许多生成任务中树立了一个令人印象深刻的里程碑。诸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人瞩目的工作,引起了学术界和工业界的极大兴趣。

不过,虽然这些模型表现惊艳,但基本都是专一于某一类任务,比如由给定文本生成图像,而对于不同类型的任务,则往往需要专门单独训练,或重新构建新模型。

那么能不能在前人基础上搞一个「全能型」的Diffusion,实现AIGC模型的大一统呢?有人就在努力沿着这个方向进行探索,并已经取得了进展。

这个来自伊利诺伊大学厄巴纳-香槟分校、得克萨斯大学奥斯汀分校的联合团队,试图将现有的单流Diffusion扩展为多流网络,称为Versatile Diffusion(VD),这是第一个统一的多流多模态Diffusion框架,是迈向通用生成性人工智能的一步。

图片

论文地址:https://arxiv.org/abs/2211.08332

Versatile Diffusion除了普通的文字生成图像功能之外,还可以输入图像生成类似图像,输入图像生成文字,输入文字生成相似文字,图片语义解耦编辑,输入图像及文字生成视频,根据隐空间编辑图像内容等等。

未来的版本还将支持更多的模式,如语音、音乐、视频和3D。

据论文介绍,现已证明VD及其基础框架具有以下优势:

a) 可以以具有竞争力的高质量处理所有子任务。

b) 支持新的扩展和应用,如图形风格和语义的分离、图像-文本双引导生成等。

c) 通过这些实验和应用,为生成的输出提供了更丰富的语义洞察力。

图片

在训练数据集方面,VD使用带有自定义数据过滤器的Laion2B-en作为主要数据集。

首次探索

VD的一个令人兴奋的发现是,它可以从语义中增强或减少图像风格,而无需进一步监督。

这样的现象激发作者去探索一个全新的领域,其中,风格和语义之间的分离可以发生在具有任意风格和任意内容的图像上。

作者表示,他们是第一个探索:a)在没有领域规范的情况下,对自然图像的语义和风格进行解读;b)扩散模型潜在空间上的语义和风格分解的团队。

在下图中,作者首先生成输入图像的变体,然后以语义(左边)或风格(右边)为重点对其进行操作。

图片

由于VD同时支持图像到文本和文本到图像,因此作者团队第一次尝试了通过以下步骤从文本提示的角度编辑图像:a)将图像转换成文本,b)编辑文本,c)将文本转换回图像。

在实验中作者从图像中删除了描述的内容,然后用这种图像-文本-图像(I2T2I)范式添加新的内容。与绘画或其他需要物体位置作为输入的图像编辑方法不同,VD的I2T2I不需要掩码,因为它可以按照指令自动定位和替换物体。

不过,I2T2I的输出图像与输入图像的像素不一致,这是由于图像到文本的语义提炼和文本到图像的内容创建造成的。

在下图的展示中,输入的图像首先被翻译成prompt,然后用减法(红框)和加法(绿框)对prompt进行编辑。最后,编辑后的prompt被翻译成图像。

图片

此外,他们也是第一个探索基于给定的文字去生成相似文字的团队。

图片

网络框架

具体来说,文中提出的VD框架是一个多流网络,有各种类型的数据作为输入和背景。

VD多流多模态diffusion框架继承了LDM/SD的优点,具有可解释的潜在空间、模态化结构和较低的计算成本。

VD可以联合训练多个流,每个流代表一个跨模式的任务。其核心设计是diffuser网络内的分组、共享和交换协议,使框架适应所有支持的任务和其他任务。

图片

diffuser分为三组:全局层、数据层和语境层。全局层是时间嵌入层,数据层是剩余块,而语境层是交叉关注。

这种分组与层的功能相对应。当处理多个任务时,全局层在所有任务中共享。数据层和语境层包含多个数据流。每个数据流都可以根据当前的数据和上下文类型进行共享或交换。

比如,当处理文本-图像请求时,diffuser使用图像数据层与文本语境层。当处理图像变异任务时,则使用图像数据层与图像语境层。

单个VD流程包含一个VAE、一个diffuser和一个语境编码器,在一个数据类型(如图像)和一个语境类型(如文本)下处理一个任务(如文本转图像)。

Versatile Diffusion的多流结构如下图所示:

图片

研究人员基于Versatile Diffusion,进一步提出了一个通用的多流多模态框架,其中包括VAE、上下文编码器和包含三层(即全局、数据和语境层)的diffuser。

Diffuser:

VD使用已被广泛采用的交叉关注的UNet作为diffuser网络的主要架构,将层分为全局层、数据层和语境层。其中数据层和语境层有两个数据流来支持图像和文本。

对于图像数据流,遵循LDM并使用残差块(ResBlock),其空间维度逐渐减少,通道数逐渐增加。

对于文本数据流,利用新的全连接残差块(FCResBlock),将768维的文本潜伏向量扩展为320*4的隐藏特征,并遵循类似的通道增加范式,再利用GroupNorms、SiLU和跳过连接,就像普通的ResBlock一样。

图片

如上图所示,FCResBlock包含两组全连接层(FC)、分组归一化(GN)和sigmoid线性单元(SiLU)。x是输入文本潜伏代码,t是输入时间嵌入,hi是中间特征。

对于语境组,图像和语境流都采用交叉注意力层,其中内容嵌入通过投影层、点积和sigmoids来操作数据特征。

变分自编码器(VAE):

VD采用此前的潜在扩散模型(Latent Diffusion Model,LDM)的自编码器-KL作为图像数据VAE,采用Optimus作为文本数据VAE。Optimus由BERT文本编码器和GPT2文本解码器组成,可以将句子双向转化为768维正态分布的潜在向量。

同时,Optimus还以其可重构和可解释的文本潜空间显示出令人满意的VAE特性。因此选择Optimus作为文本VAE,因为它非常符合多流多模态框架的前提条件。

语境编码器(Context Encoder):

VD使用CLIP文本和图像编码器作为上下文编码器。与只使用原始文本嵌入作为语境输入的LDM和SD不同,VD使用归一化和投影嵌入,使文本和图像的CLIP对比损失最小化。

实验表明,上下文类型之间更接近的嵌入空间有助于模型快速收敛,表现更好。类似的结论也可以在DALL·E 2中实现,DALL·E 2用额外的投影层来微调文本到图像的模型,以最小化文本和图像嵌入之间的差异,用于图像变化。

性能表现

作者将早期的单任务模型作为基线模型,并将VD的结果与这些基线进行比较。其中,SDv1.4作为文本到图像的基线模型,SD-variation用于图像-变体,而BLIP用于图像-文本。

同时,作者还对不同的VD模型进行了定性比较,其中VDDC和VD-official用于文本到图像,所有三个模型用于图像变体。

其中SD和VD的图像样本是用受控的随机种子生成的,以便更好地检查质量。

图片

文本到图像的性能

虽然DALLE 2和Imagen在这些任务上也取得了SOTA,但由于没有公开的代码或训练细节,因此作者跳过了对它们的比较。

结果显示,多流程结构和多任务训练可以帮助VD捕获上下文语义并更精确地生成输出,并出色地完成了所有的子任务。

图片

图像-变体的性能

此外,由VD生成的图像标注还包含了一些创造性的词语。相比起来,BLIP的生成就很短,缺乏对细节的描述。

图片

图像到文本的性能

效果展示

图片

文生图

图片

图像变体

图片

以语义为重点的图像变体

图片

双引导

总结

  • 作者介绍了Versatile Diffusion(VD),一个多流的多模态diffusion网络,在一个统一的模型中解决了文本、图像和变化。在VD的基础上,作者进一步介绍了一个通用的多流多模态框架,其中可以涉及新的任务和领域。
  • 通过实验,作者发现VD在所有支持的任务上都能产生高质量的输出,其中VD的文本到图像和图像到变体的结果能更好地捕捉上下文中的语义,VD的图像到文本的结果具有创造性和说明性。
  • 鉴于VD的多流多模态属性,作者引入了新颖的扩展和应用,可能会使从事这项技术的下游用户进一步受益。

团队介绍

伊利诺伊大学厄巴纳-香槟分校的IFP团队是由黄煦涛教授在80年代创立的,起初是贝克曼高级科学和技术研究所的图像形成和处理小组。

图片

多年来,IFP一直致力于图像以外的研究和创新,包括图像和视频编码、多模态人机交互、多媒体注释和搜索、计算机视觉和模式识别、机器学习、大数据、深度学习和高性能计算。

目前IFP的研究方向是通过协同结合大数据、深度学习和高性能计算来解决多模态信息处理的问题。

此外,IFP在人工智能领域的顶级会议上获得了多篇最佳论文,并在许多国际竞赛中获胜,包括首届NIST TrecVID、首届ImageNet挑战赛和首届人工智能城市挑战赛。

有趣的是,自黄教授1960年代开始在麻省理工学院任教以来,IFP小组的「成员」甚至包括朋友、学生、学生的学生、学生的学生,甚至是学生的学生的学生。

以上是AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

AI分析师的崛起:为什么这可能是AI革命中最重要的工作AI分析师的崛起:为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦(Andy Macmillan)的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样,原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版