搜索
首页科技周边人工智能UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源

已经红遍半边天的扩散模型,将被淘汰了?

当前,生成式AI模型,比如GAN、扩散模型或一致性模型,通过将输入映射到对应目标数据分布的输出,来生成图像需要进行改写的内容是:

通常情况下,这种模型需要学习很多真实的图片,然后才能尽量保证生成图片的真实特征需要进行改写的内容是:

最近,来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络(IGN)需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

论文地址:https://arxiv.org/abs/2311.01462

IGNs可以从各种各样的输入,比如随机噪声、简单的图形等,通过单步生成逼真的图像,并且不需要多步迭代需要进行改写的内容是:

这一模型旨在成为一个「全局映射器」(global projector),可以把任何输入数据映射到目标数据分布需要进行改写的内容是:

简言之,通用图像生成模型未来一定是这样的需要进行改写的内容是:

有趣的是,《宋飞正传》中一个高效的场景竟成为作者的灵感来源需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

这个场景很好地总结了「幂等运算符」(idempotent operator)这一概念,是指在运算过程中,对同一个输入重复进行运算,得到的结果总是一样的需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

需要进行改写的内容是:

正如Jerry Seinfeld幽默地指出的那样,一些现实生活中的行为也可以被认为是幂等的需要进行改写的内容是:

幂等生成网络

IGN与GAN、扩散模型有两点重要的不同之处:

- 与GAN不同的是,IGN无需单独的生成器和判别器,它是一个「自对抗」的模型,同时完成生成和判别需要进行改写的内容是:

- 与执行增量步骤的扩散模型不同,IGN尝试在单个步中将输入映射到数据分布需要进行改写的内容是:

IGN(幂等生成模型)的来源是什么?

它被训练为从源分布UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源给定输入样本的目标分布UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源,生成样本需要进行改写的内容是:

给定示例数据集UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源,每个示例均取自UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源需要进行改写的内容是:然后,研究人员训练模型UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源映射到UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源需要进行改写的内容是:

假设分布UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源位于同一空间,即它们的实例具有相同的维度需要进行改写的内容是:这允许将UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源应用于两种类型的实例UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源需要进行改写的内容是:

如图展示了IGN背后的基本思想:真实示例 (x) 对于模型 f 是不变的UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源需要进行改写的内容是:其他输入 (z) 被映射到f通过优化UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源映射到自身的实例流上需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

IGN训练例程PyTorch代码的一部分示例需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

实验结果

得到IGN后,效果如何呢?

作者承认,现阶段,IGN的生成结果无法与最先进的模型相竞争需要进行改写的内容是:

在实验中,使用的较小的模型和较低分辨率的数据集,并在探索中主要关注简化方法需要进行改写的内容是:

当然了,基础生成建模技术,如GAN、扩散模型,也是花了相当长的时间才达到成熟、规模化的性能需要进行改写的内容是:

实验设置

研究人员在MNIST(灰度手写数字数据集)和 CelebA(人脸图像数据集)上评估IGN,分别使用28×28和64×64的图像分辨率需要进行改写的内容是:

作者采用了简单的自动编码器架构,其中编码器是来自DCGAN的简单五层鉴别器主干,解码器是生成器需要进行改写的内容是:训练和网络超参数如表1所示需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

生成结果

图4显示了应用模型一次和连续两次后两个数据集的定性结果需要进行改写的内容是:

如图所示,应用IGN 一次 (f (z)) 会产生相干生成结果需要进行改写的内容是:然而,可能会出现伪影,例如MNIST数字中的孔洞,或者面部图像中头顶和头发的扭曲像素需要进行改写的内容是:

再次应用 f (f (f (z))) 可以纠正这些问题,填充孔洞,或减少面部噪声斑块周围的总变化需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

图7显示了附加结果以及应用f三次的结果需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

比较UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源表明,当图像接近学习流形时,再次应用f会导致最小的变化,因为图像被认为是分布的需要进行改写的内容是:

潜在空间操纵

作者通过执行操作证明IGN具有一致的潜在空间,与GAN所示的类似,图6显示了潜在空间算法需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

分布外映射

作者还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」,来验证IGN「全局映射」的潜力需要进行改写的内容是:

研究人员通过对噪声图像x+n 进行去噪、对灰度图像UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源进行着色,以及将草图UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源转换为图5中的真实图像来证明这一点需要进行改写的内容是:

原始图像x,这些逆任务是不适定的需要进行改写的内容是:IGN能够创建符合原始图像结构的自然映射需要进行改写的内容是:

如图所示,连续应用f可以提高图像质量(例如,它消除了投影草图中的黑暗和烟雾伪影)需要进行改写的内容是:

UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源图片

谷歌下一步?

通过以上结果可以看出,IGN在推理方面更加有效,在训练后只需单步即可生成结果需要进行改写的内容是:

它们还可以输出更一致的结果,这可能推广到更多的应用中,比如医学图像修复需要进行改写的内容是:

论文作者表示:

我们认为这项工作是迈向模型的第一步,该模型学习将任意输入映射到目标分布,这是生成建模的新范式需要进行改写的内容是:

接下来,研究团队计划用更多的数据来扩大IGN的规模,希望挖掘新的生成式AI模型的全部潜力需要进行改写的内容是:

最新研究的代码,未来将在GitHub上公开需要进行改写的内容是:

参考文献:

https://www.php.cn/link/2bd388f731f26312bfc0fe30da009595

https://www.php.cn/link/e1e4e65fddf79af60aab04457a6565a6


以上是UC伯克利谷歌革新LLM,实现终结扩散模型并用于IGN单步生成逼真图像,美剧成为灵感来源的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?阅读AI索引2025:AI是您的朋友,敌人还是副驾驶?Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

开始使用Meta Llama 3.2 -Analytics Vidhya开始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

AV字节:Meta' llama 3.2,Google的双子座1.5等AV字节:Meta' llama 3.2,Google的双子座1.5等Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

与机器交谈的人类成本:聊天机器人真的可以在乎吗?与机器交谈的人类成本:聊天机器人真的可以在乎吗?Apr 11, 2025 pm 12:00 PM

连接的舒适幻想:我们在与AI的关系中真的在蓬勃发展吗? 这个问题挑战了麻省理工学院媒体实验室“用AI(AHA)”研讨会的乐观语气。事件展示了加油

了解Python的Scipy图书馆了解Python的Scipy图书馆Apr 11, 2025 am 11:57 AM

介绍 想象一下,您是科学家或工程师解决复杂问题 - 微分方程,优化挑战或傅立叶分析。 Python的易用性和图形功能很有吸引力,但是这些任务需要强大的工具

3种运行Llama 3.2的方法-Analytics Vidhya3种运行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

使用dagster自动化数据质量检查使用dagster自动化数据质量检查Apr 11, 2025 am 11:44 AM

数据质量保证:与Dagster自动检查和良好期望 保持高数据质量对于数据驱动的业务至关重要。 随着数据量和源的增加,手动质量控制变得效率低下,容易出现错误。

大型机在人工智能时代有角色吗?大型机在人工智能时代有角色吗?Apr 11, 2025 am 11:42 AM

大型机:AI革命的无名英雄 虽然服务器在通用应用程序上表现出色并处理多个客户端,但大型机是专为关键任务任务而建立的。 这些功能强大的系统经常在Heavil中找到

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。