生成式模型進入「即時」時代?
使用文生圖和圖生圖已經不再是一件新鮮事了。然而,在使用這些工具的過程中,我們發現它們常常運行緩慢,導致我們需要等待一段時間才能獲取生成的結果
但最近,一種名為“LCM”的模型改變了這種情況,它甚至能做到即時的連續生圖。
itter162/126212222121212212121262221262#. ##LCM 的全名是Latent Consistency Models(潛在一致性模型),由清華大學交叉資訊研究院的研究者們建構。在這個模型發布之前,Stable Diffusion 等潛在擴散模型(LDM)由於迭代採樣過程計算量大,生成速度非常緩慢。透過一些創新的方法,LCM 只用少數的幾步推理就能產生高解析度影像。根據統計,LCM 能將主流文生圖模型的效率提高 5-10 倍,所以能呈現即時的效果。
技術報告連結:https://arxiv.org/ pdf/2311.05556.pdf
潛在一致性模型的迅速產生能力為影像生成技術開啟了新的應用領域。這種模型可以根據輸入的文字(提示)快速處理和渲染即時捕捉到的影像,從而實現高速影像生成。這意味著用戶可以自訂他們想要展示的場景或視覺效果在X 平台上,不少研究者也曬出了他們利用該模型實現的生成效果,包括圖生圖、視頻生成、影像編輯、即時視訊渲染等各類應用。 作用中:https://twitter.com/jaopenvil/#us/1722212#18222##1722212#2需要重新寫作的內容是:圖片來源:https://twitter.com/javilopen/status/1724398708052414748
我們的團隊已經完全開源了LCM的程式碼,並且公開了基於SD-v1.5和SDXL等預訓練模型進行內部蒸餾得到的模型權重檔案和線上示範。此外,Hugging Face團隊已將潛在一致性模型整合到diffusers官方倉庫中,並在兩個連續的正式版本v0.22.0和v0.23.0中更新了LCM和LCM-LoRA的相關程式碼框架,提供了對潛在一致性模型的良好支持。在Hugging Face上公開的模型在今天的熱度榜中排名第一,成為全平台文生圖模型熱度第一並且全類別模型熱度第三
接下來,我們將分別介紹 LCM 和 LCM-LoRA 這兩項研究成果。
LCM:只用幾步推理就能產生高解析度影像
AIGC 時代,包括Stable Diffusion 和DALL-E 3 等基於擴散模型的文生圖模型受到了廣泛關注。擴散模型透過向訓練資料添加噪聲,然後逆轉這一過程來產生高品質影像。然而,擴散模型產生圖片需要多步驟取樣,這個過程相對較慢,增加了推理成本。緩慢的多步驟採樣問題是部署這類模型時的主要瓶頸。
OpenAI 的宋颯博士在今年提出的一致性模型(Consistency Model,CM)為解決上述問題提供了一個思路。一致性模型被指出在設計上具有單步生成的能力,展現出極大的加速擴散模型的生成的潛力。然而,由於一致性模型局限於無條件圖片生成,導致包括文生圖、圖生圖等在內的許多實際應用仍難以享受此模型的潛在優勢。
潛在一致性模型(Latent Consistency Model,LCM)就是為解決上述問題而誕生的。潛在一致性模型支援給定條件的影像生成任務,並結合了潛在編碼、無分類器引導等諸多在擴散模型中被廣泛應用的技術,大大加速了條件去噪過程,為諸多具有實際應用意義的任務打開了一條通路。
LCM 技術細節
具體而言,潛在一致性模型將擴散模型的去噪問題解讀為求解如下所示的增廣機率流常微分方程的過程。
可以透過改進傳統的擴散模型來提高求解效率。傳統的方法使用數值迭代來求解常微分方程,但即使使用更精確的求解器,每一步的精度也有限,需要進行大約10次迭代才能得到滿意的結果
#與傳統的迭代求解常微分方程不同,潛在一致性模型要求直接對常微分方程進行單步求解,預測方程的最終解,從理論上可以在單步內產生圖片
為了訓練潛在的一致性模型,研究提出可以透過對預先訓練的擴散模型(例如,穩定擴散)進行參數微調,在極少的資源消耗下實現模型的快速生成效果。這個蒸餾過程是基於宋颮博士提出的一致性損失函數的最佳化。為了在文生圖任務上獲得更好的表現並減少計算開銷,本文提出了三個關鍵技術:
重寫後的內容:(1)透過使用預先訓練的自動編碼器,將原始圖片編碼成潛在空間中的表示,以在壓縮圖片時減少冗餘訊息,並使圖片在語義上更加一致
(2)將無分類器引導作為模型的一個輸入參數蒸餾進潛在一致性模型中,在享受無分類器引導帶來的更好的圖片- 文本的一致性的同時,由於無分類器引導幅度被作為輸入參數蒸餾進了潛在一致性模型,從而能夠減少推理時的所需的計算開銷;
(3)使用跳步策略來計算一致性損失,大大加快了潛在一致性模型的蒸餾過程。潛在一致性模型的蒸餾演算法的偽代碼見下圖。
定性和定量化的結果表明,潛在一致性模型具有快速生成高品質圖片的能力。此模型能夠在1~4步內產生高品質的圖片。透過比較實際的推理時間和產生品質指標FID,可以看出潛在一致性模型相對於現有最快的取樣器之一DPM solver ,在維持同等生成品質的情況下,實際推理時間能夠加速約4倍
LCM 上產生的圖片上RA#.一款通用的穩定傳輸加速模組
在潛在一致性模型的基礎上,作者團隊隨後進一步發布了他們關於LCM-LoRA 的技術報告。由於潛在一致性模型的蒸餾過程可以被視為是對於原有的預訓練模型的微調過程,從而可以使用 LoRA 等高效微調技術來訓練潛在一致性模型。得益於LoRA 技術帶來的資源節省,作者團隊在Stable Diffusion 系列中參數量最大的SDXL 模型上進行了蒸餾,成功得到了能夠在極少步數內生成與SDXL 數十步相媲美的潛在一致性模型。 在論文引言部分,研究指出儘管潛在擴散模型(LDM)在生成文字圖像和線稿圖像方面取得了成功,但其緩慢的反向採樣過程限制了即時應用,對用戶體驗產生了影響。目前的開源模型和加速技術尚不能在普通消費級GPU上實現即時生成 加速LDM 的方法一般分為兩類:第一類涉及先進的ODE 求解器,如DDIM、DPMSolver 和DPM -Solver ,以加快生成過程。第二類涉及蒸餾 LDM 以簡化其功能。 ODE - 解算器減少了推理步驟,但仍需要大量的計算開銷,尤其是在採用無分類器指導時。同時,蒸餾方法(如 Guided-Distill)雖然前景廣闊,但由於其密集的計算要求而面臨實際限制。在 LDM 生成影像的速度和品質之間尋求平衡仍然是該領域的一項挑戰。 最近,受到一致性模型(Consistency Model,CM)的啟發,出現了潛在一致性模型(Latent Consistency Model,LCM)作為影像生成中緩慢取樣問題的解決方案。 LCM將反向擴散過程視為增強機率流ODE(PF-ODE)問題。這類模型創新地預測了潛空間中的解,無需透過數值ODE求解器進行迭代求解。因此,它們能夠有效率地合成高解析度影像,只需進行1到4個推理步驟。此外,LCM在蒸餾效率方面也表現出色,只需用A100進行32個小時的訓練即可完成最小步驟的推理 在這個基礎上,開發了一種名為潛在一致性微調( LCF)的方法,它可以在無需從教師擴散模型開始的情況下對預訓練的LCM進行微調。對於專業資料集,例如動漫、真實照片或奇幻影像資料集,還需要額外的步驟,例如使用潛在一致性蒸餾(LCD)將預先訓練的LDM蒸餾為LCM,或直接使用LCF對LCM進行微調。然而,這種額外的訓練可能會阻礙LCM在不同資料集上的快速部署,這就提出了一個關鍵問題:是否可以在自訂資料集上實現快速、無需訓練的推理 為了回答上述問題,研究人員提出了LCM-LoRA。 LCM-LoRA是一種通用的免訓練加速模組,可以直接插入各種Stable-Diffusion(SD)微調模型或SD LoRA中,以最少的步驟支援快速推理。與早期的數值機率流ODE(PF-ODE)求解器如DDIM、DPM-Solver和DPM-Solver 相比,LCM-LoRA代表了一類基於神經網路的新型PF-ODE求解器模組。它展示了在各種微調的SD模型和LoRA中的強大泛化能力 LCM-LoRA 概況圖。透過在 LCM 的蒸餾過程中引入 LoRA,該研究大大減少了蒸餾的記憶體開銷,這使得他們能夠利用有限的資源訓練更大的模型,例如 SDXL 和 SSD-1B。更重要的是,透過 LCM-LoRA 訓練獲得的 LoRA 參數(acceleration vector)可以直接與在特定風格資料集上微調獲得的其他 LoRA 參數(style vetcor)相結合。無需任何訓練,透過 acceleration vector 和 style vetcor 的線性組合獲得的模型就能以最少的採樣步驟生成特定繪畫風格的圖像。 LCM-LoRA 技術細節可以重寫為: 通常來講,潛在一致性模型的訓練採用單階段指導蒸餾方式進行,這種方法利用預先訓練的自編碼器潛在空間將指導擴散模型蒸餾為LCM。此過程涉及增強機率流 ODE,我們可以將其理解為一種數學公式,這樣一來可確保生成的樣本遵循生成高品質影像的軌跡。 值得一提的是,蒸餾的重點在於維持這些軌跡的保真度,同時大幅減少所需的取樣步驟數。演算法 1 提供了 LCD 的偽代碼。 由於LCM 的蒸餾過程是在預訓練擴散模型的參數上進行的,因此我們可以將潛在一致性蒸餾視為擴散模型的微調過程,從而就可以採用一些高效率的調參方法,如LoRA。 LoRA updates the pre-trained weight matrix by applying low-rank decomposition. Specifically, given a weight matrix , its update method is expressed as , where , during the training process, W_0 remains unchanged, and the gradient update is only applied to the two parameters A and B. Therefore, for the input As a product of low-rank matrices, LoRA significantly reduces the number of trainable parameters, thereby reducing memory usage. The table below compares the total number of parameters in the full model to the trainable parameters when using LoRA technology. Obviously, by incorporating LoRA technology in the LCM distillation process, the number of trainable parameters is significantly reduced, effectively reducing the memory requirements for training. This study shows through a series of experiments that the LCD paradigm can be well adapted to larger models such as SDXL and SSD-1B. The generation results of different models are shown in Figure 2 Show. The author found that using LoRA technology can improve the efficiency of the distillation process, and also found that the LoRA parameters obtained through training can be used as a general acceleration module that can be directly used with other LoRA Combination use of parameters As shown in Figure 1 above, the author team found that it only needs to simply combine the "style parameters" obtained by fine-tuning on a specific style data set with the "acceleration parameters" obtained by latent consistency distillation. By linear combination, a new potential consistency model with both rapid generation capability and specific style can be obtained. This discovery provides a strong boost to the large number of open source models that already exist in the existing open source community, allowing these models to even enjoy the acceleration effects brought by the latent consistency model without any additional training. In short, LCM -LoRA is a general training-free acceleration module for Stable-Diffusion (SD) models. It functions as a standalone and efficient neural network-based solver module to predict solutions to PF-ODE, enabling fast inference with minimal steps on various fine-tuned SD models and SD LoRA. A large number of text-to-image generation experiments prove the strong generalization ability and superiority of LCM-LoRA Team introduction Luo Simian is a second-year master's student in the Department of Computer Science and Technology at Tsinghua University, and his supervisor is Professor Zhao Xing. He graduated from the Big Data School of Fudan University with a bachelor's degree. His research direction is multi-modal generative models. He is interested in diffusion models, consistency models and AIGC acceleration, and is committed to developing the next generation of generative models. Previously, he published many papers as the first author at top conferences such as ICCV and NeurIPS The first row (from left to right): Luo Simian, Tan Yiqin. Second row (from left to right): Huang Longbo, Li Jian, Zhao Xing.
以上是即時文生圖速度提升5-10倍,清華LCM/LCM-LoRA爆火,瀏覽超百萬、下載超20萬的詳細內容。更多資訊請關注PHP中文網其他相關文章!