生成式模型进入「实时」时代?
使用文生图和图生图已经不再是一件新鲜事了。然而,在使用这些工具的过程中,我们发现它们常常运行缓慢,导致我们需要等待一段时间才能获取生成的结果
但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。
图源:https://twitter.com/javilopen/status/1724398666889224590
LCM 的全称是 Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前,Stable Diffusion 等潜在扩散模型(LDM)由于迭代采样过程计算量大,生成速度非常缓慢。通过一些创新性的方法,LCM 只用少数的几步推理就能生成高分辨率图像。据统计,LCM 能将主流文生图模型的效率提高 5-10 倍,所以能呈现出实时的效果。
请点击以下链接查看论文:https://arxiv.org/pdf/2310.04378.pdf
项目地址:https://github.com/luosiallen/latent-consistency-model
该内容发布后一个月内浏览量超过一百万次,作者也受邀在Hugging Face、Replicate、浦源等多个平台上部署新开发的LCM模型和演示。其中,在Hugging Face平台上LCM模型的下载量已经超过二十万次,而在Replicate平台上的在线API调用次数已经超过五十四万次
在这个基础上,研究团队进一步提出了LCM-LoRA。这个方法可以在不进行任何额外训练的情况下,将LCM的快速采样能力迁移到其他LoRA模型上。这为开源社区中已经存在的许多不同画风的模型提供了一个直接而有效的解决方案
技术报告链接:https://arxiv.org/pdf/2311.05556.pdf
潜在一致性模型的迅速生成能力为图像生成技术开辟了新的应用领域。这种模型可以根据输入的文本(提示)快速处理和渲染实时捕捉到的图像,从而实现高速图像生成。这意味着用户可以自定义他们想要展示的场景或视觉效果
在 X 平台上,不少研究者也晒出了他们利用该模型实现的生成效果,包括图生图、视频生成、图像编辑、实时视频渲染等各类应用。
图源:https://twitter.com/javilopen/status/1724398666889224590
需要重新写作的内容是:图片来源:https://twitter.com/javilopen/status/1724398708052414748
我们的团队已经完全开源了LCM的代码,并且公开了基于SD-v1.5和SDXL等预训练模型进行内部蒸馏得到的模型权重文件和在线演示。此外,Hugging Face团队已将潜在一致性模型集成到diffusers官方仓库中,并在两个连续的正式版本v0.22.0和v0.23.0中更新了LCM和LCM-LoRA的相关代码框架,提供了对潜在一致性模型的良好支持。在Hugging Face上公开的模型在今天的热度榜中排名第一,成为全平台文生图模型热度第一并且全类别模型热度第三
接下来,我们将分别介绍 LCM 和 LCM-LoRA 这两项研究成果。
LCM:只用几步推理就能生成高分辨率图像
AIGC 时代,包括 Stable Diffusion 和 DALL-E 3 等基于扩散模型的文生图模型受到了广泛关注。扩散模型通过向训练数据添加噪声,然后逆转这一过程来生成高质量图像。然而,扩散模型生成图片需要进行多步采样,这一过程相对较慢,增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。
OpenAI 的宋飏博士在今年提出的一致性模型(Consistency Model,CM)为解决上述问题提供了一个思路。一致性模型被指出在设计上具有单步生成的能力,展现出极大的加速扩散模型的生成的潜力。然而,由于一致性模型局限于无条件图片生成,导致包括文生图、图生图等在内的许多实际应用还难以享受这一模型的潜在优势。
潜在一致性模型(Latent Consistency Model,LCM)就是为解决上述问题而诞生的。潜在一致性模型支持给定条件的图像生成任务,并结合了潜在编码、无分类器引导等诸多在扩散模型中被广泛应用的技术,大大加速了条件去噪过程,为诸多具有实际应用意义的任务打开了一条通路。
LCM 技术细节
具体而言,潜在一致性模型将扩散模型的去噪问题解读为求解如下所示的增广概率流常微分方程的过程。
可以通过改进传统的扩散模型来提高求解效率。传统的方法使用数值迭代来求解常微分方程,但即使使用更精确的求解器,每一步的精度也有限,需要进行大约10次迭代才能得到满意的结果
与传统的迭代求解常微分方程不同,潜在一致性模型要求直接对常微分方程进行单步求解,预测方程的最终解,从理论上可以在单步内生成图片
为了训练潜在的一致性模型,该研究提出可以通过对预训练的扩散模型(例如,稳定扩散)进行参数微调,在极少的资源消耗下实现模型的快速生成效果。这个蒸馏过程基于宋飏博士提出的一致性损失函数的优化。为了在文生图任务上获得更好的表现并减少计算开销,本文提出了三个关键技术:
重写后的内容:(1)通过使用预先训练的自动编码器,将原始图片编码成潜在空间中的表示,以在压缩图片时减少冗余信息,并使图片在语义上更加一致
(2)将无分类器引导作为模型的一个输入参数蒸馏进潜在一致性模型中,在享受无分类器引导带来的更好的图片 - 文本的一致性的同时,由于无分类器引导幅度被作为输入参数蒸馏进了潜在一致性模型,从而能够减少推理时的所需要的计算开销;
(3)使用跳步策略来计算一致性损失,大大加快了潜在一致性模型的蒸馏过程。潜在一致性模型的蒸馏算法的伪代码见下图。
定性和定量化的结果表明,潜在一致性模型具有快速生成高质量图片的能力。该模型能够在1~4步内生成出高质量的图片。通过比较实际的推理时间和生成质量指标FID,可以看出潜在一致性模型相对于现有最快的采样器之一DPM solver++,在保持同等生成质量的情况下,实际推理时间能够加速约4倍
LCM 生成的图像
LCM-LORA:一款通用的稳定传输加速模块
在潜在一致性模型的基础上,作者团队随后进一步发布了他们关于 LCM-LoRA 的技术报告。由于潜在一致性模型的蒸馏过程可以被视作是对于原有的预训练模型的微调过程,从而可以使用 LoRA 等高效微调技术来训练潜在一致性模型。得益于 LoRA 技术带来的资源节省,作者团队在 Stable Diffusion 系列中参数量最大的 SDXL 模型上进行了蒸馏,成功得到了能够在极少步数内生成与 SDXL 数十步相媲美的潜在一致性模型。
在论文引言部分,研究指出尽管潜在扩散模型(LDM)在生成文本图像和线稿图像方面取得了成功,但其缓慢的反向采样过程限制了实时应用,对用户体验产生了影响。目前的开源模型和加速技术尚不能在普通消费级GPU上实现实时生成
加速 LDM 的方法一般分为两类:第一类涉及先进的 ODE 求解器,如 DDIM、DPMSolver 和 DPM-Solver++,以加快生成过程。第二类涉及蒸馏 LDM 以简化其功能。ODE - 求解器减少了推理步骤,但仍需要大量的计算开销,尤其是在采用无分类器指导时。同时,蒸馏方法(如 Guided-Distill)虽然前景广阔,但由于其密集的计算要求而面临实际限制。在 LDM 生成图像的速度和质量之间寻求平衡仍然是该领域的一项挑战。
最近,受到一致性模型(Consistency Model,CM)的启发,出现了潜在一致性模型(Latent Consistency Model,LCM)作为图像生成中缓慢采样问题的解决方案。LCM将反向扩散过程视为增强概率流ODE(PF-ODE)问题。这类模型创新性地预测了潜空间中的解,无需通过数值ODE求解器进行迭代求解。因此,它们能够高效地合成高分辨率图像,只需进行1到4个推理步骤。此外,LCM在蒸馏效率方面也表现出色,只需用A100进行32个小时的训练即可完成最小步骤的推理
在这个基础上,开发了一种名为潜在一致性微调(LCF)的方法,它可以在无需从教师扩散模型开始的情况下对预训练的LCM进行微调。对于专业数据集,例如动漫、真实照片或奇幻图像数据集,还需要额外的步骤,例如使用潜在一致性蒸馏(LCD)将预训练的LDM蒸馏为LCM,或直接使用LCF对LCM进行微调。然而,这种额外的训练可能会阻碍LCM在不同数据集上的快速部署,这就提出了一个关键问题:是否可以在自定义数据集上实现快速、无需训练的推理
为了回答上述问题,研究人员提出了LCM-LoRA。LCM-LoRA是一种通用的免训练加速模块,可以直接插入各种Stable-Diffusion(SD)微调模型或SD LoRA中,以最少的步骤支持快速推理。与早期的数值概率流ODE(PF-ODE)求解器如DDIM、DPM-Solver和DPM-Solver++相比,LCM-LoRA代表了一类基于神经网络的新型PF-ODE求解器模块。它展示了在各种微调的SD模型和LoRA中的强大泛化能力
LCM-LoRA 概况图。通过在 LCM 的蒸馏过程中引入 LoRA,该研究大大减少了蒸馏的内存开销,这使得他们能够利用有限的资源训练更大的模型,例如 SDXL 和 SSD-1B。更重要的是,通过 LCM-LoRA 训练获得的 LoRA 参数(acceleration vector)可以直接与在特定风格数据集上微调获得的其他 LoRA 参数(style vetcor)相结合。无需任何训练,通过 acceleration vector 和 style vetcor 的线性组合获得的模型就能以最少的采样步骤生成特定绘画风格的图像。
LCM-LoRA 技术细节可以被重写为:
通常来讲,潜在一致性模型的训练采用单阶段指导蒸馏方式进行,这种方法利用预训练的自编码器潜在空间将指导扩散模型蒸馏为 LCM。此过程涉及增强概率流 ODE,我们可以将其理解为一种数学公式,这样一来可确保生成的样本遵循生成高质量图像的轨迹。
值得一提的是,蒸馏的重点是保持这些轨迹的保真度,同时显着减少所需的采样步骤数量。算法 1 提供了 LCD 的伪代码。
由于 LCM 的蒸馏过程是在预训练扩散模型的参数上进行的,因此我们可以将潜在一致性蒸馏视为扩散模型的微调过程,从而就可以采用一些高效的调参方法,如 LoRA。
LoRA 通过应用低秩分解来更新预训练的权重矩阵。具体而言,给定一个权重矩阵,其更新方式表述为
,其中
,训练过程中,W_0 保持不变,梯度更新只应用于 A 和 B 两个参数。因而对于输入 x,前向传播的更改表述为:
h 代表输出向量,从公式(1)可以观察到,通过将完整参数矩阵分解为两个低秩矩阵的乘积,LoRA 显着减少了可训练参数的数量,从而降低了内存使用量。
下表将完整模型中的参数总数与使用 LoRA 技术时的可训练参数进行了比较。显然,通过在 LCM 蒸馏过程中结合 LoRA 技术,可训练参数的数量显着减少,有效降低了训练的内存需求。
该研究通过一系列实验表明 :LCD 范式可以很好地适应更大的模型如 SDXL 、 SSD-1B ,不同模型的生成结果如图 2 所示。
作者发现使用LoRA技术可以提高蒸馏过程的效率,同时还发现通过训练得到的LoRA参数可以作为一种通用的加速模块,可以直接与其他LoRA参数结合使用
如上图 1 所示,作者团队发现,只需要将在特定风格数据集上微调得到的 “风格参数” 与经过潜在一致性蒸馏得到的 “加速参数” 进行简单的线性组合,就可以获得兼具快速生成能力和特定风格的全新潜在一致性模型。这一发现为现有开源社区内已存在的大量开源模型提供了极强的助力,使得这些模型甚至可以在无需任何额外训练的情况下享受潜在一致性模型带来的加速效果。
展示了使用这种方法改善 "剪纸画风" 模型后产生的新模型生成的效果,如下图所示
总之,LCM-LoRA是一种用于Stable-Diffusion(SD)模型的通用免训练加速模块。它可以作为独立且高效的基于神经网络的求解器模块来预测PF-ODE的解,从而能够在各种微调的SD模型和SD LoRA上以最少的步骤进行快速推理。大量的文本到图像生成实验证明了LCM-LoRA强大的泛化能力和优越性
团队介绍
论文作者成员全部来自清华叉院,两位共同一作分别是骆思勉,谭亦钦。
骆思勉是清华大学计算机科学与技术系二年级硕士生,导师是赵行教授。他本科毕业于复旦大学大数据学院。他的研究方向是多模态生成模型,对扩散模型、一致性模型和AIGC加速等感兴趣,致力于开发下一代生成模型。此前,他以第一作者的身份在ICCV和NeurIPS等顶级会议上发表了多篇论文
谭亦钦是清华大学叉院二年级硕士生,他的导师是黄隆波老师。在本科阶段,他就读于清华大学电子工程系。他的研究方向主要涵盖深度强化学习和扩散模型。在之前的研究中,他作为第一作者在ICLR等学术会议上发表了一些备受关注的论文,并进行了口头报告
值得一提的是,两位共一是在叉院李建老师的高等计算机理论课上,提出了LCM的想法,并最后作为期末课程项目进行了展示。三位指导老师中,李建和黄隆波是清华交叉信息院副教授,赵行是清华交叉信息院助理教授。
第一行(从左到右):骆思勉、谭亦钦。第二行(从左到右):黄隆波、李建、赵行。
以上是实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万的详细内容。更多信息请关注PHP中文网其他相关文章!

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

Meta的视频合成新框架给我们带来了一些惊喜就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。生成式AI天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

Atom编辑器mac版下载
最流行的的开源编辑器

Dreamweaver Mac版
视觉化网页开发工具

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),