搜尋
首頁科技週邊人工智慧即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

生成式模型進入「即時」時代?

使用文生圖和圖生圖已經不再是一件新鮮事了。然而,在使用這些工具的過程中,我們發現它們常常運行緩慢,導致我們需要等待一段時間才能獲取生成的結果

但最近,一種名為“LCM”的模型改變了這種情況,它甚至能做到即時的連續生圖。

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

                             itter162/126212222121212212121262221262#. ##LCM 的全名是Latent Consistency Models(潛在一致性模型),由清華大學交叉資訊研究院的研究者們建構。在這個模型發布之前,Stable Diffusion 等潛在擴散模型(LDM)由於迭代採樣過程計算量大,生成速度非常緩慢。透過一些創新的方法,LCM 只用少數的幾步推理就能產生高解析度影像。根據統計,LCM 能將主流文生圖模型的效率提高 5-10 倍,所以能呈現即時的效果。

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

    請點選以下連結查看論文:https://arxiv.org/pdf/2310.04378.pdf
  • ##計畫網址: https://github.com/luosiallen/latent-consistency-model
  • #該內容發布後一個月內瀏覽量超過一百萬次,作者也受邀在Hugging Face、 Replicate、浦源等多個平台上部署新開發的LCM模型和演示。其中,Hugging Face平台上LCM模型的下載量已經超過二十萬次,而在Replicate平台上的在線API調用次數已經超過五十四萬次
在這個基礎上,研究團隊進一步提出了LCM-LoRA。這個方法可以在不進行任何額外訓練的情況下,將LCM的快速取樣能力遷移到其他LoRA模型上。這為開源社群中已經存在的許多不同畫風的模型提供了一個直接而有效的解決方案

技術報告連結:https://arxiv.org/ pdf/2311.05556.pdf即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

潛在一致性模型的迅速產生能力為影像生成技術開啟了新的應用領域。這種模型可以根據輸入的文字(提示)快速處理和渲染即時捕捉到的影像,從而實現高速影像生成。這意味著用戶可以自訂他們想要展示的場景或視覺效果

在X 平台上,不少研究者也曬出了他們利用該模型實現的生成效果,包括圖生圖、視頻生成、影像編輯、即時視訊渲染等各類應用。

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

                                 作用中:https://twitter.com/jaopenvil/#us/1722212#18222##1722212#2

需要重新寫作的內容是:圖片來源:https://twitter.com/javilopen/status/1724398708052414748

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

我們的團隊已經完全開源了LCM的程式碼,並且公開了基於SD-v1.5和SDXL等預訓練模型進行內部蒸餾得到的模型權重檔案和線上示範。此外,Hugging Face團隊已將潛在一致性模型整合到diffusers官方倉庫中,並在兩個連續的正式版本v0.22.0和v0.23.0中更新了LCM和LCM-LoRA的相關程式碼框架,提供了對潛在一致性模型的良好支持。在Hugging Face上公開的模型在今天的熱度榜中排名第一,成為全平台文生圖模型熱度第一並且全類別模型熱度第三

接下來,我們將分別介紹 LCM 和 LCM-LoRA 這兩項研究成果。

LCM:只用幾步推理就能產生高解析度影像

AIGC 時代,包括Stable Diffusion 和DALL-E 3 等基於擴散模型的文生圖模型受到了廣泛關注。擴散模型透過向訓練資料添加噪聲,然後逆轉這一過程來產生高品質影像。然而,擴散模型產生圖片需要多步驟取樣,這個過程相對較慢,增加了推理成本。緩慢的多步驟採樣問題是部署這類模型時的主要瓶頸。

OpenAI 的宋颯博士在今年提出的一致性模型(Consistency Model,CM)為解決上述問題提供了一個思路。一致性模型被指出在設計上具有單步生成的能力,展現出極大的加速擴散模型的生成的潛力。然而,由於一致性模型局限於無條件圖片生成,導致包括文生圖、圖生圖等在內的許多實際應用仍難以享受此模型的潛在優勢。

潛在一致性模型(Latent Consistency Model,LCM)就是為解決上述問題而誕生的。潛在一致性模型支援給定條件的影像生成任務,並結合了潛在編碼、無分類器引導等諸多在擴散模型中被廣泛應用的技術,大大加速了條件去噪過程,為諸多具有實際應用意義的任務打開了一條通路。

LCM 技術細節

具體而言,潛在一致性模型將擴散模型的去噪問題解讀為求解如下所示的增廣機率流常微分方程的過程。

可以透過改進傳統的擴散模型來提高求解效率。傳統的方法使用數值迭代來求解常微分方程,但即使使用更精確的求解器,每一步的精度也有限,需要進行大約10次迭代才能得到滿意的結果

#與傳統的迭代求解常微分方程不同,潛在一致性模型要求直接對常微分方程進行單步求解,預測方程的最終解,從理論上可以在單步內產生圖片

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

為了訓練潛在的一致性模型,研究提出可以透過對預先訓練的擴散模型(例如,穩定擴散)進行參數微調,在極少的資源消耗下實現模型的快速生成效果。這個蒸餾過程是基於宋颮博士提出的一致性損失函數的最佳化。為了在文生圖任務上獲得更好的表現並減少計算開銷,本文提出了三個關鍵技術:

重寫後的內容:(1)透過使用預先訓練的自動編碼器,將原始圖片編碼成潛在空間中的表示,以在壓縮圖片時減少冗餘訊息,並使圖片在語義上更加一致

(2)將無分類器引導作為模型的一個輸入參數蒸餾進潛在一致性模型中,在享受無分類器引導帶來的更好的圖片- 文本的一致性的同時,由於無分類器引導幅度被作為輸入參數蒸餾進了潛在一致性模型,從而能夠減少推理時的所需的計算開銷;

(3)使用跳步策略來計算一致性損失,大大加快了潛在一致性模型的蒸餾過程。潛在一致性模型的蒸餾演算法的偽代碼見下圖。

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

定性和定量化的結果表明,潛在一致性模型具有快速生成高品質圖片的能力。此模型能夠在1~4步內產生高品質的圖片。透過比較實際的推理時間和產生品質指標FID,可以看出潛在一致性模型相對於現有最快的取樣器之一DPM solver ,在維持同等生成品質的情況下,實際推理時間能夠加速約4倍

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

                                 LCM 上產生的圖片上RA#.一款通用的穩定傳輸加速模組

在潛在一致性模型的基礎上,作者團隊隨後進一步發布了他們關於LCM-LoRA 的技術報告。由於潛在一致性模型的蒸餾過程可以被視為是對於原有的預訓練模型的微調過程,從而可以使用 LoRA 等高效微調技術來訓練潛在一致性模型。得益於LoRA 技術帶來的資源節省,作者團隊在Stable Diffusion 系列中參數量最大的SDXL 模型上進行了蒸餾,成功得到了能夠在極少步數內生成與SDXL 數十步相媲美的潛在一致性模型。

在論文引言部分,研究指出儘管潛在擴散模型(LDM)在生成文字圖像和線稿圖像方面取得了成功,但其緩慢的反向採樣過程限制了即時應用,對用戶體驗產生了影響。目前的開源模型和加速技術尚不能在普通消費級GPU上實現即時生成

加速LDM 的方法一般分為兩類:第一類涉及先進的ODE 求解器,如DDIM、DPMSolver 和DPM -Solver ,以加快生成過程。第二類涉及蒸餾 LDM 以簡化其功能。 ODE - 解算器減少了推理步驟,但仍需要大量的計算開銷,尤其是在採用無分類器指導時。同時,蒸餾方法(如 Guided-Distill)雖然前景廣闊,但由於其密集的計算要求而面臨實際限制。在 LDM 生成影像的速度和品質之間尋求平衡仍然是該領域的一項挑戰。

最近,受到一致性模型(Consistency Model,CM)的啟發,出現了潛在一致性模型(Latent Consistency Model,LCM)作為影像生成中緩慢取樣問題的解決方案。 LCM將反向擴散過程視為增強機率流ODE(PF-ODE)問題。這類模型創新地預測了潛空間中的解,無需透過數值ODE求解器進行迭代求解。因此,它們能夠有效率地合成高解析度影像,只需進行1到4個推理步驟。此外,LCM在蒸餾效率方面也表現出色,只需用A100進行32個小時的訓練即可完成最小步驟的推理

在這個基礎上,開發了一種名為潛在一致性微調( LCF)的方法,它可以在無需從教師擴散模型開始的情況下對預訓練的LCM進行微調。對於專業資料集,例如動漫、真實照片或奇幻影像資料集,還需要額外的步驟,例如使用潛在一致性蒸餾(LCD)將預先訓練的LDM蒸餾為LCM,或直接使用LCF對LCM進行微調。然而,這種額外的訓練可能會阻礙LCM在不同資料集上的快速部署,這就提出了一個關鍵問題:是否可以在自訂資料集上實現快速、無需訓練的推理

為了回答上述問題,研究人員提出了LCM-LoRA。 LCM-LoRA是一種通用的免訓練加速模組,可以直接插入各種Stable-Diffusion(SD)微調模型或SD LoRA中,以最少的步驟支援快速推理。與早期的數值機率流ODE(PF-ODE)求解器如DDIM、DPM-Solver和DPM-Solver 相比,LCM-LoRA代表了一類基於神經網路的新型PF-ODE求解器模組。它展示了在各種微調的SD模型和LoRA中的強大泛化能力

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

LCM-LoRA 概況圖。透過在 LCM 的蒸餾過程中引入 LoRA,該研究大大減少了蒸餾的記憶體開銷,這使得他們能夠利用有限的資源訓練更大的模型,例如 SDXL 和 SSD-1B。更重要的是,透過 LCM-LoRA 訓練獲得的 LoRA 參數(acceleration vector)可以直接與在特定風格資料集上微調獲得的其他 LoRA 參數(style vetcor)相結合。無需任何訓練,透過 acceleration vector 和 style vetcor 的線性組合獲得的模型就能以最少的採樣步驟生成特定繪畫風格的圖像。

LCM-LoRA 技術細節可以重寫為:

通常來講,潛在一致性模型的訓練採用單階段指導蒸餾方式進行,這種方法利用預先訓練的自編碼器潛在空間將指導擴散模型蒸餾為LCM。此過程涉及增強機率流 ODE,我們可以將其理解為一種數學公式,這樣一來可確保生成的樣本遵循生成高品質影像的軌跡。 

值得一提的是,蒸餾的重點在於維持這些軌跡的保真度,同時大幅減少所需的取樣步驟數。演算法 1 提供了 LCD 的偽代碼。

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

由於LCM 的蒸餾過程是在預訓練擴散模型的參數上進行的,因此我們可以將潛在一致性蒸餾視為擴散模型的微調過程,從而就可以採用一些高效率的調參方法,如LoRA。

LoRA updates the pre-trained weight matrix by applying low-rank decomposition. Specifically, given a weight matrix 即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬, its update method is expressed as 即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬, where 即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬, during the training process, W_0 remains unchanged, and the gradient update is only applied to the two parameters A and B. Therefore, for the input As a product of low-rank matrices, LoRA significantly reduces the number of trainable parameters, thereby reducing memory usage.

The table below compares the total number of parameters in the full model to the trainable parameters when using LoRA technology. Obviously, by incorporating LoRA technology in the LCM distillation process, the number of trainable parameters is significantly reduced, effectively reducing the memory requirements for training. 即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

This study shows through a series of experiments that the LCD paradigm can be well adapted to larger models such as SDXL and SSD-1B. The generation results of different models are shown in Figure 2 Show.

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

The author found that using LoRA technology can improve the efficiency of the distillation process, and also found that the LoRA parameters obtained through training can be used as a general acceleration module that can be directly used with other LoRA Combination use of parameters

As shown in Figure 1 above, the author team found that it only needs to simply combine the "style parameters" obtained by fine-tuning on a specific style data set with the "acceleration parameters" obtained by latent consistency distillation. By linear combination, a new potential consistency model with both rapid generation capability and specific style can be obtained. This discovery provides a strong boost to the large number of open source models that already exist in the existing open source community, allowing these models to even enjoy the acceleration effects brought by the latent consistency model without any additional training. 即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬

shows the effect of new model generation after using this method to improve the "paper-cut painting style" model, as shown in the figure below

In short, LCM -LoRA is a general training-free acceleration module for Stable-Diffusion (SD) models. It functions as a standalone and efficient neural network-based solver module to predict solutions to PF-ODE, enabling fast inference with minimal steps on various fine-tuned SD models and SD LoRA. A large number of text-to-image generation experiments prove the strong generalization ability and superiority of LCM-LoRA

即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬Team introduction

The authors of the paper are all from Tsinghua University, two The co-authors are Luo Simian and Tan Yiqin.

Luo Simian is a second-year master's student in the Department of Computer Science and Technology at Tsinghua University, and his supervisor is Professor Zhao Xing. He graduated from the Big Data School of Fudan University with a bachelor's degree. His research direction is multi-modal generative models. He is interested in diffusion models, consistency models and AIGC acceleration, and is committed to developing the next generation of generative models. Previously, he published many papers as the first author at top conferences such as ICCV and NeurIPS

Tan Yiqin is a second-year master's student in Tsinghua University's Branch School, and his supervisor is Mr. Huang Longbo. As an undergraduate, he studied in the Department of Electronic Engineering at Tsinghua University. His research interests mainly cover deep reinforcement learning and diffusion models. In previous research, he published some high-profile papers as the first author at academic conferences such as ICLR, and gave oral reports

It is worth mentioning that one of the two was in In the advanced computer theory class of teacher Li Jian of the college, the idea of ​​LCM was proposed and finally presented as a final course project. Among the three instructors, Li Jian and Huang Longbo are associate professors of Tsinghua Institute of Interdisciplinary Information, and Zhao Xing is an assistant professor of Tsinghua Institute of Interdisciplinary Information.

                                                                                                                                                                                                                                                The first row (from left to right): Luo Simian, Tan Yiqin. Second row (from left to right): Huang Longbo, Li Jian, Zhao Xing.

以上是即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了Oct 07, 2023 pm 06:17 PM

自己动手做过莫比乌斯带吗?莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易制作的莫比乌斯带却有着复杂的性质,长期吸引着数学家们的兴趣。最近,研究人员一直被一个看似简单的问题困扰着,那就是关于制作莫比乌斯带所需纸带的最短长度?布朗大学RichardEvanSchwartz谈到,对于莫比乌斯带来说,这个问题没有解决,因为它们是「嵌入的」而不是「浸入的」,这意味着它们不会相互渗透或自我

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。