即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

王林

Nov 18, 2023 am 08:25 AM

工程lcm-loralatent consistency models

生成式模型進入「即時」時代？

使用文生圖和圖生圖已經不再是一件新鮮事了。然而，在使用這些工具的過程中，我們發現它們常常運行緩慢，導致我們需要等待一段時間才能獲取生成的結果

但最近，一種名為“LCM”的模型改變了這種情況，它甚至能做到即時的連續生圖。

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

^{itter162/126212222121212212121262221262#.}##LCM 的全名是Latent Consistency Models（潛在一致性模型），由清華大學交叉資訊研究院的研究者們建構。在這個模型發布之前，Stable Diffusion 等潛在擴散模型（LDM）由於迭代採樣過程計算量大，生成速度非常緩慢。透過一些創新的方法，LCM 只用少數的幾步推理就能產生高解析度影像。根據統計，LCM 能將主流文生圖模型的效率提高 5-10 倍，所以能呈現即時的效果。

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

##計畫網址： https://github.com/luosiallen/latent-consistency-model
#該內容發布後一個月內瀏覽量超過一百萬次，作者也受邀在Hugging Face、 Replicate、浦源等多個平台上部署新開發的LCM模型和演示。其中，Hugging Face平台上LCM模型的下載量已經超過二十萬次，而在Replicate平台上的在線API調用次數已經超過五十四萬次

在這個基礎上，研究團隊進一步提出了LCM-LoRA。這個方法可以在不進行任何額外訓練的情況下，將LCM的快速取樣能力遷移到其他LoRA模型上。這為開源社群中已經存在的許多不同畫風的模型提供了一個直接而有效的解決方案

技術報告連結：https://arxiv.org/ pdf/2311.05556.pdf 即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

潛在一致性模型的迅速產生能力為影像生成技術開啟了新的應用領域。這種模型可以根據輸入的文字（提示）快速處理和渲染即時捕捉到的影像，從而實現高速影像生成。這意味著用戶可以自訂他們想要展示的場景或視覺效果

在X 平台上，不少研究者也曬出了他們利用該模型實現的生成效果，包括圖生圖、視頻生成、影像編輯、即時視訊渲染等各類應用。

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

作用中：https://twitter.com/jaopenvil/#us/1722212#18222##1722212#2

需要重新寫作的內容是：圖片來源：https://twitter.com/javilopen/status/1724398708052414748

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

^{我們的團隊已經完全開源了LCM的程式碼，並且公開了基於SD-v1.5和SDXL等預訓練模型進行內部蒸餾得到的模型權重檔案和線上示範。此外，Hugging Face團隊已將潛在一致性模型整合到diffusers官方倉庫中，並在兩個連續的正式版本v0.22.0和v0.23.0中更新了LCM和LCM-LoRA的相關程式碼框架，提供了對潛在一致性模型的良好支持。在Hugging Face上公開的模型在今天的熱度榜中排名第一，成為全平台文生圖模型熱度第一並且全類別模型熱度第三}

接下來，我們將分別介紹 LCM 和 LCM-LoRA 這兩項研究成果。

LCM：只用幾步推理就能產生高解析度影像

AIGC 時代，包括Stable Diffusion 和DALL-E 3 等基於擴散模型的文生圖模型受到了廣泛關注。擴散模型透過向訓練資料添加噪聲，然後逆轉這一過程來產生高品質影像。然而，擴散模型產生圖片需要多步驟取樣，這個過程相對較慢，增加了推理成本。緩慢的多步驟採樣問題是部署這類模型時的主要瓶頸。

OpenAI 的宋颯博士在今年提出的一致性模型（Consistency Model，CM）為解決上述問題提供了一個思路。一致性模型被指出在設計上具有單步生成的能力，展現出極大的加速擴散模型的生成的潛力。然而，由於一致性模型局限於無條件圖片生成，導致包括文生圖、圖生圖等在內的許多實際應用仍難以享受此模型的潛在優勢。

潛在一致性模型（Latent Consistency Model，LCM）就是為解決上述問題而誕生的。潛在一致性模型支援給定條件的影像生成任務，並結合了潛在編碼、無分類器引導等諸多在擴散模型中被廣泛應用的技術，大大加速了條件去噪過程，為諸多具有實際應用意義的任務打開了一條通路。

LCM 技術細節

具體而言，潛在一致性模型將擴散模型的去噪問題解讀為求解如下所示的增廣機率流常微分方程的過程。

可以透過改進傳統的擴散模型來提高求解效率。傳統的方法使用數值迭代來求解常微分方程，但即使使用更精確的求解器，每一步的精度也有限，需要進行大約10次迭代才能得到滿意的結果

#與傳統的迭代求解常微分方程不同，潛在一致性模型要求直接對常微分方程進行單步求解，預測方程的最終解，從理論上可以在單步內產生圖片

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

為了訓練潛在的一致性模型，研究提出可以透過對預先訓練的擴散模型（例如，穩定擴散）進行參數微調，在極少的資源消耗下實現模型的快速生成效果。這個蒸餾過程是基於宋颮博士提出的一致性損失函數的最佳化。為了在文生圖任務上獲得更好的表現並減少計算開銷，本文提出了三個關鍵技術：

重寫後的內容：（1）透過使用預先訓練的自動編碼器，將原始圖片編碼成潛在空間中的表示，以在壓縮圖片時減少冗餘訊息，並使圖片在語義上更加一致

（2）將無分類器引導作為模型的一個輸入參數蒸餾進潛在一致性模型中，在享受無分類器引導帶來的更好的圖片- 文本的一致性的同時，由於無分類器引導幅度被作為輸入參數蒸餾進了潛在一致性模型，從而能夠減少推理時的所需的計算開銷；

（3）使用跳步策略來計算一致性損失，大大加快了潛在一致性模型的蒸餾過程。潛在一致性模型的蒸餾演算法的偽代碼見下圖。

即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬

定性和定量化的結果表明，潛在一致性模型具有快速生成高品質圖片的能力。此模型能夠在1~4步內產生高品質的圖片。透過比較實際的推理時間和產生品質指標FID，可以看出潛在一致性模型相對於現有最快的取樣器之一DPM solver ，在維持同等生成品質的情況下，實際推理時間能夠加速約4倍

^{LCM 上產生的圖片上}RA#.一款通用的穩定傳輸加速模組

在潛在一致性模型的基礎上，作者團隊隨後進一步發布了他們關於LCM-LoRA 的技術報告。由於潛在一致性模型的蒸餾過程可以被視為是對於原有的預訓練模型的微調過程，從而可以使用 LoRA 等高效微調技術來訓練潛在一致性模型。得益於LoRA 技術帶來的資源節省，作者團隊在Stable Diffusion 系列中參數量最大的SDXL 模型上進行了蒸餾，成功得到了能夠在極少步數內生成與SDXL 數十步相媲美的潛在一致性模型。

在論文引言部分，研究指出儘管潛在擴散模型（LDM）在生成文字圖像和線稿圖像方面取得了成功，但其緩慢的反向採樣過程限制了即時應用，對用戶體驗產生了影響。目前的開源模型和加速技術尚不能在普通消費級GPU上實現即時生成

加速LDM 的方法一般分為兩類：第一類涉及先進的ODE 求解器，如DDIM、DPMSolver 和DPM -Solver ，以加快生成過程。第二類涉及蒸餾 LDM 以簡化其功能。 ODE - 解算器減少了推理步驟，但仍需要大量的計算開銷，尤其是在採用無分類器指導時。同時，蒸餾方法（如 Guided-Distill）雖然前景廣闊，但由於其密集的計算要求而面臨實際限制。在 LDM 生成影像的速度和品質之間尋求平衡仍然是該領域的一項挑戰。

最近，受到一致性模型（Consistency Model，CM）的啟發，出現了潛在一致性模型（Latent Consistency Model，LCM）作為影像生成中緩慢取樣問題的解決方案。 LCM將反向擴散過程視為增強機率流ODE（PF-ODE）問題。這類模型創新地預測了潛空間中的解，無需透過數值ODE求解器進行迭代求解。因此，它們能夠有效率地合成高解析度影像，只需進行1到4個推理步驟。此外，LCM在蒸餾效率方面也表現出色，只需用A100進行32個小時的訓練即可完成最小步驟的推理

在這個基礎上，開發了一種名為潛在一致性微調（ LCF）的方法，它可以在無需從教師擴散模型開始的情況下對預訓練的LCM進行微調。對於專業資料集，例如動漫、真實照片或奇幻影像資料集，還需要額外的步驟，例如使用潛在一致性蒸餾（LCD）將預先訓練的LDM蒸餾為LCM，或直接使用LCF對LCM進行微調。然而，這種額外的訓練可能會阻礙LCM在不同資料集上的快速部署，這就提出了一個關鍵問題：是否可以在自訂資料集上實現快速、無需訓練的推理

為了回答上述問題，研究人員提出了LCM-LoRA。 LCM-LoRA是一種通用的免訓練加速模組，可以直接插入各種Stable-Diffusion（SD）微調模型或SD LoRA中，以最少的步驟支援快速推理。與早期的數值機率流ODE（PF-ODE）求解器如DDIM、DPM-Solver和DPM-Solver 相比，LCM-LoRA代表了一類基於神經網路的新型PF-ODE求解器模組。它展示了在各種微調的SD模型和LoRA中的強大泛化能力

^{LCM-LoRA 概況圖。透過在 LCM 的蒸餾過程中引入 LoRA，該研究大大減少了蒸餾的記憶體開銷，這使得他們能夠利用有限的資源訓練更大的模型，例如 SDXL 和 SSD-1B。更重要的是，透過 LCM-LoRA 訓練獲得的 LoRA 參數（acceleration vector）可以直接與在特定風格資料集上微調獲得的其他 LoRA 參數（style vetcor）相結合。無需任何訓練，透過 acceleration vector 和 style vetcor 的線性組合獲得的模型就能以最少的採樣步驟生成特定繪畫風格的圖像。}

LCM-LoRA 技術細節可以重寫為：

通常來講，潛在一致性模型的訓練採用單階段指導蒸餾方式進行，這種方法利用預先訓練的自編碼器潛在空間將指導擴散模型蒸餾為LCM。此過程涉及增強機率流 ODE，我們可以將其理解為一種數學公式，這樣一來可確保生成的樣本遵循生成高品質影像的軌跡。

值得一提的是，蒸餾的重點在於維持這些軌跡的保真度，同時大幅減少所需的取樣步驟數。演算法 1 提供了 LCD 的偽代碼。

由於LCM 的蒸餾過程是在預訓練擴散模型的參數上進行的，因此我們可以將潛在一致性蒸餾視為擴散模型的微調過程，從而就可以採用一些高效率的調參方法，如LoRA。

LoRA updates the pre-trained weight matrix by applying low-rank decomposition. Specifically, given a weight matrix , its update method is expressed as , where , during the training process, W_0 remains unchanged, and the gradient update is only applied to the two parameters A and B. Therefore, for the input As a product of low-rank matrices, LoRA significantly reduces the number of trainable parameters, thereby reducing memory usage.

The table below compares the total number of parameters in the full model to the trainable parameters when using LoRA technology. Obviously, by incorporating LoRA technology in the LCM distillation process, the number of trainable parameters is significantly reduced, effectively reducing the memory requirements for training.

This study shows through a series of experiments that the LCD paradigm can be well adapted to larger models such as SDXL and SSD-1B. The generation results of different models are shown in Figure 2 Show.

The author found that using LoRA technology can improve the efficiency of the distillation process, and also found that the LoRA parameters obtained through training can be used as a general acceleration module that can be directly used with other LoRA Combination use of parameters

As shown in Figure 1 above, the author team found that it only needs to simply combine the "style parameters" obtained by fine-tuning on a specific style data set with the "acceleration parameters" obtained by latent consistency distillation. By linear combination, a new potential consistency model with both rapid generation capability and specific style can be obtained. This discovery provides a strong boost to the large number of open source models that already exist in the existing open source community, allowing these models to even enjoy the acceleration effects brought by the latent consistency model without any additional training.
shows the effect of new model generation after using this method to improve the "paper-cut painting style" model, as shown in the figure below

In short, LCM -LoRA is a general training-free acceleration module for Stable-Diffusion (SD) models. It functions as a standalone and efficient neural network-based solver module to predict solutions to PF-ODE, enabling fast inference with minimal steps on various fine-tuned SD models and SD LoRA. A large number of text-to-image generation experiments prove the strong generalization ability and superiority of LCM-LoRA

Team introduction

The authors of the paper are all from Tsinghua University, two The co-authors are Luo Simian and Tan Yiqin.
Luo Simian is a second-year master's student in the Department of Computer Science and Technology at Tsinghua University, and his supervisor is Professor Zhao Xing. He graduated from the Big Data School of Fudan University with a bachelor's degree. His research direction is multi-modal generative models. He is interested in diffusion models, consistency models and AIGC acceleration, and is committed to developing the next generation of generative models. Previously, he published many papers as the first author at top conferences such as ICCV and NeurIPS
Tan Yiqin is a second-year master's student in Tsinghua University's Branch School, and his supervisor is Mr. Huang Longbo. As an undergraduate, he studied in the Department of Electronic Engineering at Tsinghua University. His research interests mainly cover deep reinforcement learning and diffusion models. In previous research, he published some high-profile papers as the first author at academic conferences such as ICLR, and gave oral reports
It is worth mentioning that one of the two was in In the advanced computer theory class of teacher Li Jian of the college, the idea of LCM was proposed and finally presented as a final course project. Among the three instructors, Li Jian and Huang Longbo are associate professors of Tsinghua Institute of Interdisciplinary Information, and Zhao Xing is an assistant professor of Tsinghua Institute of Interdisciplinary Information.

^{The first row (from left to right): Luo Simian, Tan Yiqin. Second row (from left to right): Huang Longbo, Li Jian, Zhao Xing.}

以上是即時文生圖速度提升5-10倍，清華LCM/LCM-LoRA爆火，瀏覽超百萬、下載超20萬的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35