搜索
首页科技周边人工智能实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

生成式模型进入「实时」时代?

使用文生图和图生图已经不再是一件新鲜事了。然而,在使用这些工具的过程中,我们发现它们常常运行缓慢,导致我们需要等待一段时间才能获取生成的结果

但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

                               图源:https://twitter.com/javilopen/status/1724398666889224590

LCM 的全称是 Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前,Stable Diffusion 等潜在扩散模型(LDM)由于迭代采样过程计算量大,生成速度非常缓慢。通过一些创新性的方法,LCM 只用少数的几步推理就能生成高分辨率图像。据统计,LCM 能将主流文生图模型的效率提高 5-10 倍,所以能呈现出实时的效果。实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

  • 请点击以下链接查看论文:https://arxiv.org/pdf/2310.04378.pdf

  • 项目地址:https://github.com/luosiallen/latent-consistency-model

该内容发布后一个月内浏览量超过一百万次,作者也受邀在Hugging Face、Replicate、浦源等多个平台上部署新开发的LCM模型和演示。其中,在Hugging Face平台上LCM模型的下载量已经超过二十万次,而在Replicate平台上的在线API调用次数已经超过五十四万次

在这个基础上,研究团队进一步提出了LCM-LoRA。这个方法可以在不进行任何额外训练的情况下,将LCM的快速采样能力迁移到其他LoRA模型上。这为开源社区中已经存在的许多不同画风的模型提供了一个直接而有效的解决方案

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

技术报告链接:https://arxiv.org/pdf/2311.05556.pdf

潜在一致性模型的迅速生成能力为图像生成技术开辟了新的应用领域。这种模型可以根据输入的文本(提示)快速处理和渲染实时捕捉到的图像,从而实现高速图像生成。这意味着用户可以自定义他们想要展示的场景或视觉效果

在 X 平台上,不少研究者也晒出了他们利用该模型实现的生成效果,包括图生图、视频生成、图像编辑、实时视频渲染等各类应用。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

                                 图源:https://twitter.com/javilopen/status/1724398666889224590

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

需要重新写作的内容是:图片来源:https://twitter.com/javilopen/status/1724398708052414748

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

我们的团队已经完全开源了LCM的代码,并且公开了基于SD-v1.5和SDXL等预训练模型进行内部蒸馏得到的模型权重文件和在线演示。此外,Hugging Face团队已将潜在一致性模型集成到diffusers官方仓库中,并在两个连续的正式版本v0.22.0和v0.23.0中更新了LCM和LCM-LoRA的相关代码框架,提供了对潜在一致性模型的良好支持。在Hugging Face上公开的模型在今天的热度榜中排名第一,成为全平台文生图模型热度第一并且全类别模型热度第三

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

接下来,我们将分别介绍 LCM 和 LCM-LoRA 这两项研究成果。

LCM:只用几步推理就能生成高分辨率图像

AIGC 时代,包括 Stable Diffusion 和 DALL-E 3 等基于扩散模型的文生图模型受到了广泛关注。扩散模型通过向训练数据添加噪声,然后逆转这一过程来生成高质量图像。然而,扩散模型生成图片需要进行多步采样,这一过程相对较慢,增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。

OpenAI 的宋飏博士在今年提出的一致性模型(Consistency Model,CM)为解决上述问题提供了一个思路。一致性模型被指出在设计上具有单步生成的能力,展现出极大的加速扩散模型的生成的潜力。然而,由于一致性模型局限于无条件图片生成,导致包括文生图、图生图等在内的许多实际应用还难以享受这一模型的潜在优势。

潜在一致性模型(Latent Consistency Model,LCM)就是为解决上述问题而诞生的。潜在一致性模型支持给定条件的图像生成任务,并结合了潜在编码、无分类器引导等诸多在扩散模型中被广泛应用的技术,大大加速了条件去噪过程,为诸多具有实际应用意义的任务打开了一条通路。

LCM 技术细节

具体而言,潜在一致性模型将扩散模型的去噪问题解读为求解如下所示的增广概率流常微分方程的过程。

可以通过改进传统的扩散模型来提高求解效率。传统的方法使用数值迭代来求解常微分方程,但即使使用更精确的求解器,每一步的精度也有限,需要进行大约10次迭代才能得到满意的结果

与传统的迭代求解常微分方程不同,潜在一致性模型要求直接对常微分方程进行单步求解,预测方程的最终解,从理论上可以在单步内生成图片

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

为了训练潜在的一致性模型,该研究提出可以通过对预训练的扩散模型(例如,稳定扩散)进行参数微调,在极少的资源消耗下实现模型的快速生成效果。这个蒸馏过程基于宋飏博士提出的一致性损失函数的优化。为了在文生图任务上获得更好的表现并减少计算开销,本文提出了三个关键技术:

重写后的内容:(1)通过使用预先训练的自动编码器,将原始图片编码成潜在空间中的表示,以在压缩图片时减少冗余信息,并使图片在语义上更加一致

(2)将无分类器引导作为模型的一个输入参数蒸馏进潜在一致性模型中,在享受无分类器引导带来的更好的图片 - 文本的一致性的同时,由于无分类器引导幅度被作为输入参数蒸馏进了潜在一致性模型,从而能够减少推理时的所需要的计算开销;

(3)使用跳步策略来计算一致性损失,大大加快了潜在一致性模型的蒸馏过程。潜在一致性模型的蒸馏算法的伪代码见下图。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

定性和定量化的结果表明,潜在一致性模型具有快速生成高质量图片的能力。该模型能够在1~4步内生成出高质量的图片。通过比较实际的推理时间和生成质量指标FID,可以看出潜在一致性模型相对于现有最快的采样器之一DPM solver++,在保持同等生成质量的情况下,实际推理时间能够加速约4倍

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

                                  LCM 生成的图像

LCM-LORA:一款通用的稳定传输加速模块

在潜在一致性模型的基础上,作者团队随后进一步发布了他们关于 LCM-LoRA 的技术报告。由于潜在一致性模型的蒸馏过程可以被视作是对于原有的预训练模型的微调过程,从而可以使用 LoRA 等高效微调技术来训练潜在一致性模型。得益于 LoRA 技术带来的资源节省,作者团队在 Stable Diffusion 系列中参数量最大的 SDXL 模型上进行了蒸馏,成功得到了能够在极少步数内生成与 SDXL 数十步相媲美的潜在一致性模型。

在论文引言部分,研究指出尽管潜在扩散模型(LDM)在生成文本图像和线稿图像方面取得了成功,但其缓慢的反向采样过程限制了实时应用,对用户体验产生了影响。目前的开源模型和加速技术尚不能在普通消费级GPU上实现实时生成

加速 LDM 的方法一般分为两类:第一类涉及先进的 ODE 求解器,如 DDIM、DPMSolver 和 DPM-Solver++,以加快生成过程。第二类涉及蒸馏 LDM 以简化其功能。ODE - 求解器减少了推理步骤,但仍需要大量的计算开销,尤其是在采用无分类器指导时。同时,蒸馏方法(如 Guided-Distill)虽然前景广阔,但由于其密集的计算要求而面临实际限制。在 LDM 生成图像的速度和质量之间寻求平衡仍然是该领域的一项挑战。

最近,受到一致性模型(Consistency Model,CM)的启发,出现了潜在一致性模型(Latent Consistency Model,LCM)作为图像生成中缓慢采样问题的解决方案。LCM将反向扩散过程视为增强概率流ODE(PF-ODE)问题。这类模型创新性地预测了潜空间中的解,无需通过数值ODE求解器进行迭代求解。因此,它们能够高效地合成高分辨率图像,只需进行1到4个推理步骤。此外,LCM在蒸馏效率方面也表现出色,只需用A100进行32个小时的训练即可完成最小步骤的推理

在这个基础上,开发了一种名为潜在一致性微调(LCF)的方法,它可以在无需从教师扩散模型开始的情况下对预训练的LCM进行微调。对于专业数据集,例如动漫、真实照片或奇幻图像数据集,还需要额外的步骤,例如使用潜在一致性蒸馏(LCD)将预训练的LDM蒸馏为LCM,或直接使用LCF对LCM进行微调。然而,这种额外的训练可能会阻碍LCM在不同数据集上的快速部署,这就提出了一个关键问题:是否可以在自定义数据集上实现快速、无需训练的推理

为了回答上述问题,研究人员提出了LCM-LoRA。LCM-LoRA是一种通用的免训练加速模块,可以直接插入各种Stable-Diffusion(SD)微调模型或SD LoRA中,以最少的步骤支持快速推理。与早期的数值概率流ODE(PF-ODE)求解器如DDIM、DPM-Solver和DPM-Solver++相比,LCM-LoRA代表了一类基于神经网络的新型PF-ODE求解器模块。它展示了在各种微调的SD模型和LoRA中的强大泛化能力

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

LCM-LoRA 概况图。通过在 LCM 的蒸馏过程中引入 LoRA,该研究大大减少了蒸馏的内存开销,这使得他们能够利用有限的资源训练更大的模型,例如 SDXL 和 SSD-1B。更重要的是,通过 LCM-LoRA 训练获得的 LoRA 参数(acceleration vector)可以直接与在特定风格数据集上微调获得的其他 LoRA 参数(style vetcor)相结合。无需任何训练,通过 acceleration vector 和 style vetcor 的线性组合获得的模型就能以最少的采样步骤生成特定绘画风格的图像。

LCM-LoRA 技术细节可以被重写为:

通常来讲,潜在一致性模型的训练采用单阶段指导蒸馏方式进行,这种方法利用预训练的自编码器潜在空间将指导扩散模型蒸馏为 LCM。此过程涉及增强概率流 ODE,我们可以将其理解为一种数学公式,这样一来可确保生成的样本遵循生成高质量图像的轨迹。 

值得一提的是,蒸馏的重点是保持这些轨迹的保真度,同时显着减少所需的采样步骤数量。算法 1 提供了 LCD 的伪代码。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

由于 LCM 的蒸馏过程是在预训练扩散模型的参数上进行的,因此我们可以将潜在一致性蒸馏视为扩散模型的微调过程,从而就可以采用一些高效的调参方法,如 LoRA。

LoRA 通过应用低秩分解来更新预训练的权重矩阵。具体而言,给定一个权重矩阵实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万,其更新方式表述为实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万,其中实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万,训练过程中,W_0 保持不变,梯度更新只应用于 A 和 B 两个参数。因而对于输入 x,前向传播的更改表述为:

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

h 代表输出向量,从公式(1)可以观察到,通过将完整参数矩阵分解为两个低秩矩阵的乘积,LoRA 显着减少了可训练参数的数量,从而降低了内存使用量。 

下表将完整模型中的参数总数与使用 LoRA 技术时的可训练参数进行了比较。显然,通过在 LCM 蒸馏过程中结合 LoRA 技术,可训练参数的数量显着减少,有效降低了训练的内存需求。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

该研究通过一系列实验表明 :LCD 范式可以很好地适应更大的模型如 SDXL 、 SSD-1B ,不同模型的生成结果如图 2 所示。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

作者发现使用LoRA技术可以提高蒸馏过程的效率,同时还发现通过训练得到的LoRA参数可以作为一种通用的加速模块,可以直接与其他LoRA参数结合使用

如上图 1 所示,作者团队发现,只需要将在特定风格数据集上微调得到的 “风格参数” 与经过潜在一致性蒸馏得到的 “加速参数” 进行简单的线性组合,就可以获得兼具快速生成能力和特定风格的全新潜在一致性模型。这一发现为现有开源社区内已存在的大量开源模型提供了极强的助力,使得这些模型甚至可以在无需任何额外训练的情况下享受潜在一致性模型带来的加速效果。

展示了使用这种方法改善 "剪纸画风" 模型后产生的新模型生成的效果,如下图所示

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

总之,LCM-LoRA是一种用于Stable-Diffusion(SD)模型的通用免训练加速模块。它可以作为独立且高效的基于神经网络的求解器模块来预测PF-ODE的解,从而能够在各种微调的SD模型和SD LoRA上以最少的步骤进行快速推理。大量的文本到图像生成实验证明了LCM-LoRA强大的泛化能力和优越性

团队介绍

论文作者成员全部来自清华叉院,两位共同一作分别是骆思勉,谭亦钦。

骆思勉是清华大学计算机科学与技术系二年级硕士生,导师是赵行教授。他本科毕业于复旦大学大数据学院。他的研究方向是多模态生成模型,对扩散模型、一致性模型和AIGC加速等感兴趣,致力于开发下一代生成模型。此前,他以第一作者的身份在ICCV和NeurIPS等顶级会议上发表了多篇论文

谭亦钦是清华大学叉院二年级硕士生,他的导师是黄隆波老师。在本科阶段,他就读于清华大学电子工程系。他的研究方向主要涵盖深度强化学习和扩散模型。在之前的研究中,他作为第一作者在ICLR等学术会议上发表了一些备受关注的论文,并进行了口头报告

值得一提的是,两位共一是在叉院李建老师的高等计算机理论课上,提出了LCM的想法,并最后作为期末课程项目进行了展示。三位指导老师中,李建和黄隆波是清华交叉信息院副教授,赵行是清华交叉信息院助理教授。

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

                                             第一行(从左到右):骆思勉、谭亦钦。第二行(从左到右):黄隆波、李建、赵行。

以上是实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
让我们跳舞:结构化运动以微调我们的人类神经网让我们跳舞:结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作

新的Google泄漏揭示了双子AI的订阅更改新的Google泄漏揭示了双子AI的订阅更改Apr 27, 2025 am 11:08 AM

Google的双子座高级:新的订阅层即将到来 目前,访问Gemini Advanced需要$ 19.99/月Google One AI高级计划。 但是,Android Authority报告暗示了即将发生的变化。 最新的Google P中的代码

数据分析加速度如何求解AI的隐藏瓶颈数据分析加速度如何求解AI的隐藏瓶颈Apr 27, 2025 am 11:07 AM

尽管围绕高级AI功能炒作,但企业AI部署中潜伏的巨大挑战:数据处理瓶颈。首席执行官庆祝AI的进步时,工程师努力应对缓慢的查询时间,管道超载,一个

Markitdown MCP可以将任何文档转换为Markdowns!Markitdown MCP可以将任何文档转换为Markdowns!Apr 27, 2025 am 09:47 AM

处理文档不再只是在您的AI项目中打开文件,而是将混乱变成清晰度。诸如PDF,PowerPoints和Word之类的文档以各种形状和大小淹没了我们的工作流程。检索结构化

如何使用Google ADK进行建筑代理? - 分析Vidhya如何使用Google ADK进行建筑代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理开发套件(ADK)的力量创建具有现实世界功能的智能代理!该教程通过使用ADK来构建对话代理,并支持Gemini和GPT等各种语言模型。 w

在LLM上使用SLM进行有效解决问题-Analytics Vidhya在LLM上使用SLM进行有效解决问题-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型语言模型 (SLM) 专为效率而设计。在资源匮乏、实时性和隐私敏感的环境中,它们比大型语言模型 (LLM) 更胜一筹。 最适合专注型任务,尤其是在领域特异性、控制性和可解释性比通用知识或创造力更重要的情况下。 SLM 并非 LLMs 的替代品,但在精度、速度和成本效益至关重要时,它们是理想之选。 技术帮助我们用更少的资源取得更多成就。它一直是推动者,而非驱动者。从蒸汽机时代到互联网泡沫时期,技术的威力在于它帮助我们解决问题的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何将Google Gemini模型用于计算机视觉任务? - 分析Vidhya如何将Google Gemini模型用于计算机视觉任务? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google双子座的力量用于计算机视觉:综合指南 领先的AI聊天机器人Google Gemini扩展了其功能,超越了对话,以涵盖强大的计算机视觉功能。 本指南详细说明了如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Apr 27, 2025 am 09:20 AM

2025年的AI景观正在充满活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到来。 这些尖端的车型分开了几周,具有可比的高级功能和令人印象深刻的基准分数。这个深入的比较

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器