在视觉生成领域迅速发展的进程中,扩散模型已经完全改变了这一领域的发展态势,其引入的文本引导生成功能标志着能力方面的深刻变革。
然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。
鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。
北京邮电大学的研究人员对T2I扩散模型的可控性生成进行了深入审查,概括了该领域的理论基础和实际进展。这项综述涵盖了最新的研究成果,为该领域的发展和应用提供了重要参考。
论文:https://arxiv.org/abs/2403.04279代码:https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
我们的审查从简要介绍去噪扩散概率模型(DDPMs)和广泛使用的 T2I 扩散模型基础开始。
我们进一步探讨了扩散模型的控制机制,通过理论分析确定了在去噪过程中引入新条件的有效性。
此外,我们详细总结了该领域的研究情况,并按条件的角度将其分为特定条件生成、多条件生成以及通用可控性生成等不同类别。
图 1 利用T2I扩散模型可控生成示意图。在文本条件的基础上,加入「身份」条件来控制输出的结果。
分类体系
利用文本扩散模型进行条件生成的任务代表了一个多方面和复杂的领域。从条件角度来看,我们将这个任务分为三个子任务(参见图2)。
图 2 可控生成的分类。从条件角度来看,我们将可控生成方法分为三个子任务,包括具有特定条件的生成、具有多个条件的生成和通用可控生成。
大多数研究致力于如何在特定条件下生成图像,例如基于图像引导的生成和草图到图像的生成。
为了揭示这些方法的理论和特征,我们根据它们的条件类型进一步对其进行分类。
1. 利用特定条件生成:指引入了特定类型条件的方法,既包括定制的条件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比较直接的条件,例如ControlNet系列、生理信号-to-Image
2. 多条件生成:利用多个条件进行生成,对这一任务我们在技术的角度对其进行细分。
3. 统一可控生成:这个任务旨在能够利用任意条件(甚至任意数量)进行生成。
如何在T2I扩散模型中引入新的条件
细节请参考论文原文,下面对这些方法机理进行简要介绍。
条件得分预测(Conditional Score Prediction)
在T2I扩散模型中,利用可训练模型(例如UNet)来预测去噪过程中的概率得分(即噪声)是一种基本且有效的方法。
在基于条件得分预测方法中,新颖条件会作为预测模型的输入,来直接预测新的得分。
其可划分三种引入新条件的方法:
1. 基于模型的条件得分预测:这类方法会引入一个用来编码新颖条件的模型,并将编码特征作为UNet的输入(如作用在cross-attention层),来预测新颖条件下的得分结果;
2. 基于微调的条件得分预测:这类方法不使用一个显式的条件,而是微调文本嵌入和去噪网络的参数,来使其学习新颖条件的信息,从而利用微调后的权重来实现可控生成。例如DreamBooth和Textual Inversion就是这类做法。
3. 无需训练的条件得分预测:这类方法无需对模型进行训练,可以直接将条件作用于模型的预测环节,例如在Layout-to-Image(布局图像生成)任务中,可以直接修改cross-attention层的attention map来实现设定物体的布局。
条件引导的得分评估
条件引导估的得分估计方法是通过条件预测模型(如上图Condition Predictor)反传梯度来在去噪过程中增加条件指导。
利用特定条件生成
1. Personalization(定制化):定制化任务旨在捕捉和利用概念作为生成条件行可控生成,这些条件不容易通过文本描述,需要从示例图像中进行提取。如DreamBooth,Texutal Inversion和LoRA。
2. Spatial Control(空间控制):由于文本很难表示结构信息,即位置和密集标签,因此使用空间信号控制文本到图像扩散方法是一个重要的研究领域,例如布局、人体姿势、人体解析。方法例如ControlNet。
3. Advanced Text-Conditioned Generation(增强的文本条件生成):尽管文本在文本到图像扩散模型中起着基础条件的作用,但该领域仍存在一些挑战。
首先,在涉及多个主题或丰富描述的复杂文本中进行文本引导合成时,通常会遇到文本不对齐的问题。此外,这些模型主要在英语数据集上训练,导致了多语言生成能力明显不足。为解决这一限制,许多工作提出了旨在拓展这些模型语言范围的创新方法。
4. In-Context Generation(上下文生成):在上下文生成任务中,根据一对特定任务示例图像和文本指导,在新的查询图像上理解并执行特定任务。
5. Brain-Guided Generation(脑信号引导生成):脑信号引导生成任务专注于直接从大脑活动控制图像创建,例如脑电图(EEG)记录和功能性磁共振成像(fMRI)。
6. Sound-Guided Generation(声音引导生成):以声音为条件生成相符合的图像。
7. Text Rendering(文本渲染):在图像中生成文本,可以被广泛应用到海报、数据封面、表情包等应用场景。
多条件生成
多条件生成任务旨在根据多种条件生成图像,例如在用户定义的姿势下生成特定人物或以三种个性化身份生成人物。
在本节中,我们从技术角度对这些方法进行了全面概述,并将它们分类以下类别:
1. Joint Training(联合训练):在训练阶段就引入多个条件进行联合训练。
2. Continual Learning(持续学习):有顺序的学习多个条件,在学习新条件的同时不遗忘旧的条件,以实现多条件生成。
3. Weight Fusion(权重融合):用不同条件微调得到的参数进行权重融合,以使模型同时具备多个条件下的生成。
4. Attention-based Integration(基于注意力的集成):通过attention map来设定多个条件(通常为物体)在图像中的位置,以实现多条件生成。
通用条件生成
除了针对特定类型条件量身定制的方法之外,还存在旨在适应图像生成中任意条件的通用方法。
这些方法根据它们的理论基础被广泛分类为两组:通用条件分数预测框架和通用条件引导分数估计。
1. 通用条件分数预测框架:通用条件分数预测框架通过创建一个能够编码任何给定条件并利用它们来预测图像合成过程中每个时间步的噪声的框架。
这种方法提供了一种通用解决方案,可以灵活地适应各种条件。通过直接将条件信息整合到生成模型中,该方法允许根据各种条件动态调整图像生成过程,使其多才多艺且适用于各种图像合成场景。
2. 通用条件引导分数估计:其他方法利用条件引导的分数估计将各种条件纳入文本到图像扩散模型中。主要挑战在于在去噪过程中从潜变量获得特定条件的指导。
应用
引入新颖条件可以在多个任务中发挥用处,其中包括图像编辑、图像补全、图像组合、文/图生成3D。
例如,在图像编辑中,可以利用定制化方法,将图中出现猫编辑为特具有定身份的猫。其他内容请参考论文。
总结
这份综述深入探讨了文本到图像扩散模型的条件生成领域,揭示了融入文本引导生成过程中的新颖条件。
首先,作者为读者提供基础知识,介绍去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,作者揭示了将新颖条件引入T2I扩散模型的机制。
然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。
此外,作者探索可控生成的实际应用,在AI内容生成时代强调其在其中发挥重要作用和巨大潜力。
这项调查旨在全面了解当前可控T2I生成领域的现状,从而促进这一充满活力研究领域持续演变和拓展。
以上是可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」的详细内容。更多信息请关注PHP中文网其他相关文章!

介绍 想象一个场景:您的团队被来自不同来源的大量数据集所淹没。 整合,分类和分析此信息以进行有意义的演示是一个挑战。这是Power BI语义模型(PBISM)EX

AI特工:由Llamaindex和Monsterapi提供支持的AI的未来 AI代理有望彻底改变我们与技术的互动方式。 这些自主系统模仿人类行为,执行需要推理,决策和REA的任务

解锁自治AI:自我训练LLMS的7种方法 想象一个未来AI系统在没有人类干预的情况下学习和发展的未来,就像孩子独立掌握复杂概念的孩子一样。这不是科幻小说;这是自我的应许

AI驱动的财务报告:通过自然语言产生革新见解 在当今动态的业务环境中,准确及时的财务分析对于战略决策至关重要。 传统财务报告

Google DeepMind的乒乓球机器人:体育和机器人技术的新时代 巴黎2024年奥运会可能已经结束,但是由于Google DeepMind,运动和机器人技术的新时代正在兴起。 他们的开创性研究(“实现人类水平的竞争

双子座闪光灯1.5解锁效率和可伸缩性:烧瓶食物视觉webapp 在快速发展的AI景观中,效率和可扩展性至关重要。 开发人员越来越多地寻求高性能模型,以最大程度地减少成本和延迟

利用LlamainDex的AI特工的力量:逐步指南 想象一下,一个私人助理了解您的要求并完美地执行它们,无论是快速计算还是检索最新的市场新闻。本文探索

Jupyter Notebook (.ipynb) 文件广泛用于数据分析、科学计算和交互式编码。虽然这些 Notebook 非常适合开发和与其他数据科学家共享代码,但有时您需要将其转换为更普遍易读的格式,例如 PDF。本指南将引导您逐步了解将 .ipynb 文件转换为 PDF 的各种方法,以及技巧、最佳实践和故障排除建议。 目录 为什么将 .ipynb 转换为 PDF? 将 .ipynb 文件转换为 PDF 的方法 使用 Jupyter Notebook UI 使用 nbconve


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
视觉化网页开发工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中