搜索
首页科技周边人工智能GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion

图像生成是当前 AIGC 领域最热门的方向之一。近期发布的图像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等,开创了图像生成的新时代,实现了前所未有的图像质量和模型灵活性水平。扩散模型也成为目前占据主导地位的范式。然而,扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在扩散模型之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的,但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 擅长对单个或多个对象类进行建模,但扩展到复杂数据集(更不用说现实世界)则极具挑战性。因此,超大型模型、数据和计算资源现在都专用于扩散模型和自回归模型。

但作为一种高效的生成方法,许多研究者并没有完全放弃 GAN 方法。例如,最近英伟达提出了 StyleGAN-T 模型;港中文等用基于 GAN 的方法​生成流畅视频​,这些都是 CV 研究者在 GAN 上做的进一步尝试。

现在,在一篇 CVPR 2023 论文中,来自 POSTECH、卡耐基梅隆大学和 Adobe 研究院的研究者们联合探究了关于 GAN 的几个重要问题,包括:

  • GAN 能否继续扩大规模并从大量资源中受益,GAN 遇到瓶颈了吗?
  • 是什么阻止了 GAN 的进一步扩展,我们能否克服这些障碍?

图片

  • 论文链接:https://arxiv.org/abs/2303.05511
  • 项目链接:https://mingukkang.github.io/GigaGAN/

值得注意的是,CycleGAN 的主要作者、曾获 2018 年 ACM SIGGRAPH 最佳博士论文奖的朱俊彦是这篇 CVPR 论文的第二作者。

该研究首先使用 StyleGAN2 进行实验,并观察到简单地扩展主干网络会导致训练不稳定。基于此,研究者确定了几个关键问题,并提出了一种在增加模型容量的同时稳定训练的技术。

首先,该研究通过保留一组滤波器(filter)并采用特定于样本的线性组合来有效地扩展生成器的容量。该研究还采用了扩散上下文(diffusion context)中常用的几种技术,并证实它们为 GAN 带来了类似的好处。例如,将自注意力(仅图像)和交叉注意力(图像 - 文本)与卷积层交织在一起可以提高模型性能。

该研究还重新引入了多尺度训练,并提出一种新方案来改进图像 - 文本对齐和生成输出的低频细节。多尺度训练允许基于 GAN 的生成器更有效地使用低分辨率块中的参数,从而实现了更好的图像 - 文本对齐和图像质量。经过仔细调整后,该研究提出了十亿参数的新模型 GigaGAN,并在大型数据集(例如 LAION2B-en)上实现了稳定和可扩展的训练,实验结果如下图 1 所示。

图片

此外,该研究还采用了多阶段方法 [14, 104],首先以 64 × 64 的低分辨率生成图像,然后再上采样到 512 × 512 分辨率。这两个网络是模块化的,并且足够强大,能够以即插即用的方式使用。

该研究表明,基于文本条件的 GAN 上采样网络可以用作基础扩散模型的高效且更高质量的上采样器,如下图 2 和图 3 所示。

图片

上述改进使 GigaGAN 远远超越了以前的 GAN:比 StyleGAN2 大 36 倍,比 StyleGAN-XL 和 XMC-GAN 大 6 倍。虽然 GigaGAN 十亿(1B)的参数量仍然低于近期的大型合成模型,例如 Imagen (3.0B)、DALL・E 2 (5.5B) 和 Parti (20B),但研究者表示他们尚未观察到关于模型大小的质量饱和。

GigaGAN 在 COCO2014 数据集上实现了 9.09 的零样本 FID,低于 DALL・E 2、Parti-750M 和 Stable Diffusion。


此外,与扩散模型和自回归模型相比,GigaGAN 具有三大实用优势。首先,它的速度快了几十倍,在 0.13 秒内生成了 512 像素的图像(图 1)。其次,它可以在 3.66 秒内合成 4k 分辨率的超高分辨率图像。第三,它具有可控的潜在向量空间,适用于经过充分研究的可控图像合成应用,例如风格混合(图 6)、prompt 插值(图 7)和 prompt 混合(图 8)。


图片

图片

该研究成功地在数十亿现实世界图像上训练了基于 GAN 的十亿参数规模模型 GigaGAN。这表明 GAN 仍然是文本到图像合成的可行选择,研究人员们应考虑将其用于未来的积极扩展。

方法概览

研究者训练了一个生成器 G (z, c),在给定一个潜在编码 z∼N (0, 1)∈R^128 和文本调节信号 c 的情况下,预测一个图像 x∈R^(H×W×3)。他们使用一个判别器 D (x, c) 来判断生成的图像的真实性,与训练数据库 D 中的样本相比较,后者包含图像 - 文本对。

尽管 GAN 可以成功地在单类和多类数据集上生成真实的图像,但在互联网图像上进行开放式文本条件合成仍然面临挑战。研究者假设,目前的限制源于其对卷积层的依赖。也就是说,同样的卷积滤波器被用来为图像所有位置上的所有文本条件进行通用图像合成函数建模,这是个挑战。有鉴于此,研究者试图通过根据输入条件动态选择卷积滤波器,并通过注意力机制捕捉长程依赖,为参数化注入更多的表现力。

GigaGAN 高容量文本 - 图像生成器如下图 4 所示。首先,研究者使用预训练的 CLIP 模型和学习过的编码器 T 来提取文本嵌入。使用交叉注意力将局部文本描述符提供给生成器。全局文本描述符,连同潜在编码 z,被送入风格映射网络 M 以产生风格码 w。风格码使用论文中的风格 - 自适应内核选择调节主生成器,如右侧所示。

生成器通过将中间特征转换为 RGB 图像来输出一个图像金字塔。为了达到更高的容量,研究者在每个尺度上使用多个注意力层和卷积层(附录 A2)。他们还使用了一个单独的上采样器模型,该模型未在此图中显示。

图片

判别器由两个分支组成,用于处理图像和文本调节 t_D。文本分支对文本的处理与生成器类似(图 4)。图像分支接收一个图像金字塔,并对每个图像尺度进行独立预测。此外,预测是在下采样层的所有后续尺度上进行的,这使得它成为一个多尺度输入、多尺度输出(MS-I/O)的判别器。

图片

实验结果

在论文中,作者记录了五个不同的实验。

在第一个实验中,他们通过逐个纳入每个技术组件来展示所提方法的有效性。

图片

在第二个实验中,他们测试了模型文生图的能力,结果显示,GigaGAN 表现出与 Stable Diffusion(SD-v1.5)相当的 FID,同时产生的结果比扩散或自回归模型快得多。

图片

在第三个实验中,他们将 GigaGAN 与基于蒸馏的扩散模型进行比较,结果显示,GigaGAN 能比基于蒸馏的扩散模型更快地合成更高质量的图像。

图片

在第四个实验中,他们验证了 GigaGAN 的上采样器在有条件和无条件的超分辨率任务中相比其他上采样器的优势。

图片

图片

最后,他们展示了自己提出的大规模 GAN 模型仍然享受 GAN 的连续和解纠缠的潜在空间操作,从而实现了新的图像编辑模式。图表请参见上文中的图 6 和图 8。


以上是GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
AI游戏开发通过Upheaval的Dreamer Portal进入其代理时代AI游戏开发通过Upheaval的Dreamer Portal进入其代理时代May 02, 2025 am 11:17 AM

动荡游戏:与AI代理商的游戏开发彻底改变 Roupheaval是一家游戏开发工作室,由暴风雪和黑曜石等行业巨头的退伍军人组成,有望用其创新的AI驱动的Platfor革新游戏创作

Uber想成为您的Robotaxi商店,提供商会让他们吗?Uber想成为您的Robotaxi商店,提供商会让他们吗?May 02, 2025 am 11:16 AM

Uber的Robotaxi策略:自动驾驶汽车的骑车生态系统 在最近的Curbivore会议上,Uber的Richard Willder推出了他们成为Robotaxi提供商的乘车平台的策略。 利用他们在

AI代理玩电子游戏将改变未来的机器人AI代理玩电子游戏将改变未来的机器人May 02, 2025 am 11:15 AM

事实证明,视频游戏是尖端AI研究的宝贵测试场所,尤其是在自主代理和现实世界机器人的开发中,甚至有可能促进人工通用智能(AGI)的追求。 一个

创业公司工业综合体VC 3.0和James Currier的宣言创业公司工业综合体VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不断发展的风险投资格局的影响在媒体,财务报告和日常对话中显而易见。 但是,对投资者,初创企业和资金的具体后果经常被忽略。 风险资本3.0:范式

Adobe在Adobe Max London 2025更新创意云和萤火虫Adobe在Adobe Max London 2025更新创意云和萤火虫May 02, 2025 am 11:13 AM

Adobe Max London 2025对Creative Cloud和Firefly进行了重大更新,反映了向可访问性和生成AI的战略转变。 该分析结合了事件前简报中的见解,并融合了Adobe Leadership。 (注意:Adob

Llamacon宣布的所有元数据Llamacon宣布的所有元数据May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一项综合的AI策略,旨在直接与OpenAI等封闭的AI系统竞争,同时为其开源模型创建了新的收入流。 这个多方面的方法目标bo

关于AI仅仅是普通技术的主张的酿造争议关于AI仅仅是普通技术的主张的酿造争议May 02, 2025 am 11:10 AM

人工智能领域对这一论断存在严重分歧。一些人坚称,是时候揭露“皇帝的新衣”了,而另一些人则强烈反对人工智能仅仅是普通技术的观点。 让我们来探讨一下。 对这一创新性人工智能突破的分析,是我持续撰写的福布斯专栏文章的一部分,该专栏涵盖人工智能领域的最新进展,包括识别和解释各种有影响力的人工智能复杂性(请点击此处查看链接)。 人工智能作为普通技术 首先,需要一些基本知识来为这场重要的讨论奠定基础。 目前有大量的研究致力于进一步发展人工智能。总目标是实现人工通用智能(AGI)甚至可能实现人工超级智能(AS

模型公民,为什么AI值是下一个业务码模型公民,为什么AI值是下一个业务码May 02, 2025 am 11:09 AM

公司AI模型的有效性现在是一个关键的性能指标。自AI BOOM以来,从编写生日邀请到编写软件代码的所有事物都将生成AI使用。 这导致了语言mod的扩散

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中