首頁 >科技週邊 >人工智慧 >LCM:大幅加快產生高品質影像的新方法

LCM:大幅加快產生高品質影像的新方法

WBOY
WBOY轉載
2023-11-30 14:31:11883瀏覽

作者丨Mike Young

譯文:重新創作內容而不改變原義的語言是中文,無需出現原句

審校內容,無需改變原意,需要將語言改寫為中文,不需要出現原句

推薦| 51CTO技術堆疊(微訊號:blog51cto)

LCM:大幅加快產生高品質影像的新方法##圖片

LCM:大幅加快產生高品質影像的新方法#由於一項名為潛在一致性模型(LCM)的新技術的出現,AI將迎來在將文字轉換成圖像方面的重大突破。傳統方法如潛在擴散模型(LDM)在使用文字提示產生詳細、創意影像方面表現出色,但其致命缺點是速度較慢。使用LDM產生單一影像可能需要進行數百個步驟,這對於許多實際應用來說速度實在太慢了

重新寫成中文: LCM透過減少生成影像所需步驟的數量來改變遊戲規則。與LDM需要數百步驟才能辛苦地產生影像相比,LCM只需1到4步就能得到類似品質的結果。為了實現這種效率,LCM將預先訓練的LDM提煉成更簡潔的形式,從而大大減少了所需的運算資源和時間。我們將分析一篇最近的論文,介紹LDM模型的工作原理

本文也介紹了名為LCM-LoRA的創新,這是一種通用的Stable-Diffusion加速模組。此模組可以插入到各種Stable--Diffusion微調模型,無需任何額外的訓練。它是一種普遍適用的工具,可以加速各種影像生成任務,使其成為利用AI創建影像的潛在利器。我們也將剖析論文的這個部分。

1、高效訓練LCM

在神經網路領域,存在著一個巨大的挑戰,即需要龐大的運算能力,尤其是在訓練複雜方程式的神經網絡時。然而,這篇論文的團隊採用了一種名為提煉的巧妙方法,成功地解決了這個問題

LCM:大幅加快產生高品質影像的新方法#重寫後的內容: 研究團隊的方法如下:首先,他們使用一個文字與圖像配對的資料集來訓練一個標準的潛在擴散模型(LDM)。一旦LDM被啟動並運行,他們將其用作導師,產生新的訓練資料。然後,他們使用這些新數據來訓練潛在一致性模型(LCM)。最吸引人的是,LCM可以從LDM的能力中學習,而無需從頭開始使用龐大的資料集進行訓練

真正重要的是這個過程的效率。研究人員僅使用單一GPU就在大約32小時內完成了高品質LCM的訓練。這很重要,因為它比以前的方法快得多、實用得多。這意味著現在更多的人和專案都可以創建這種先進的模型,而不是只有享有超級運算資源的人才能創建。

圖1、LCM-LoRA概述

##########透過將LoRA引入LCM的提煉過程中,我們大幅降低了提煉的記憶體開銷,這使得我們可以用有限的資源訓練更龐大的模型,例如SDXL和SSD-1B。更重要的是,透過LCM-LoRA訓練獲得的LoRA參數(「加速向量」)可以直接與透過針對特定樣式的資料集進行微調所獲得的其他LoRA參數(「樣式向量」)結合。無需任何訓練,由加速向量和樣式向量的線性組合獲得的模型獲得了以最少的採樣步驟生成特定繪畫樣式的圖像這種能力。 ######2、結果############研究展示了基於潛在一致性模型(LCM)利用AI生成影像的重大進展。 LCM擅長僅用四個步驟就能創建高品質的512x512影像,與潛在擴散模型(LDM)等傳統模型所需的數百個步驟相比有了顯著改進。這些影像擁有清晰的細節和逼真的紋理,這個優點在下面的例子中特別明顯。 ##################圖片#########圖2、論文聲稱:「使用從不同的預訓練擴散模型中提取的潛在一致性模型產生的影像。我們使用LCM-LoRA-SD-V1.5產生512×512解析度的影像,使用LCM-LoRA-SDXL和LCM-LoRA-SSD-1B產生1024×1024解析度的影像。」## ##########這些模型不僅可以輕鬆處理較小的圖像,還擅長生成更龐大的1024x1024圖像。它們展示了一種擴展到比以前大得多的神經網路模型的能力,展示了其適應能力。在論文中的範例中(例如LCM-LoRA-SD-V1.5和LCM-LoRA-SSD-1B版本的範例),闡明了該模型在各種資料集和實際場景中的廣泛適用性### ###3、限制##########

LCM的目前版本有幾個限制。最重要的是兩個階段的訓練過程:先訓練LDM,然後用它來訓練LCM。在未來的研究中,可能會探索一種更直接的LDM訓練方法,因而可能不需要LDM。論文主要討論無條件圖像生成,條件生成任務(例如文字到圖像的合成)可能需要做更多的工作。

4、主要的啟示

潛在一致性模型(LCM)在快速產生高品質影像方面邁出了重要一步。這些模型只需1到4步就能產生與較慢的LDM相媲美的結果,可能會徹底改變文字到影像模型的實際應用。雖然目前存在一些局限性,特別是在訓練過程和生成任務的範圍方面,但LCM標誌著基於神經網路的實用影像生成取得了重大進展。提供的範例強調了這些模型的潛力

5、LCM-LoRA作為通用加速模組

在引言中提到的,該論文分為兩個部分。第二部分討論了LCM-LoRA技術,它能夠使用較少的記憶體對預訓練模型進行微調,從而提高效率

這裡的關鍵創新是將LoRA參數整合到LCM中,從而產生結合兩者優點的混合模型。這種整合對於創建特定樣式的圖像或響應特定任務特別有用。如果選擇和組合不同的LoRA參數集,每個參數集都針對獨特的樣式進行微調,研究人員創建了一個多功能模型,可以用最少的步驟生成圖像,不需要額外的訓練。

透過將針對特定繪畫樣式進行微調的LoRA參數與LCM-LoRA參數結合的例子,他們在研究中證明了這一點。這種組合允許在不同的取樣步驟(如2步、4步、8步、16步和32步)創建樣式迥異的1024 × 1024解析度影像。結果顯示,這些組合的參數無需進一步訓練即可產生高品質的圖像,凸顯了該模型的效率和通用性

這裡值得關注的一個地方是使用所謂的“加速向量」(τLCM)和「樣式向量」(τ),兩者使用特定的數學公式(λ1和λ2是這些公式中的可調整因子)組合在一起。這種組合產生的模型可以快速地產生客製化樣式的圖像。   

論文中的圖3(如下)透過展示特定樣式LoRA參數與LCM-LoRA參數結合的結果,顯示了此方法的有效性。這證明了該模型能夠快速且有效率地產生樣式不同的圖像。

LCM:大幅加快產生高品質影像的新方法圖3


#總的來說,本文的這一部分強調了LCM-LoRA模型的通用性和高效性,它可以用於快速生成高品質的特定樣式圖像,而只需使用很少的計算資源。該技術的應用範圍廣泛,預計將徹底改變從數位藝術到自動化內容創作等各個領域中圖像生成的方式

6、結論

我們研究了一種新的方法,即潛在一致性模型(LCM),用於加快從文字生成圖像的過程。與傳統的潛在擴散模型(LDM)不同,LCM只需1到4個步驟即可產生類似品質的影像,而不需要數百個步驟。這種顯著的效率提升是透過提煉方法實現的,即使用預先訓練的LDM來訓練LCM,從而避免了大量的計算

此外,我們也研究了LCM-LoRA ,這是一種使用低秩自適應(LoRA)對預訓練模型進行微調的增強技術,以降低記憶體需求。這種整合方法可以在不需要額外訓練的情況下,透過最小的計算步驟創建特定樣式的圖像

#著重強調的關鍵結果包括LCM僅用幾個步驟就能創建高品質的512x512和1024x1024影像,而LDM卻需要數百個步驟。然而,目前存在的限制是LDM依賴兩步驟訓練過程,因此你仍需要LDM開始入手!未來的研究可能會簡化這個過程。

LCM特別是在提議的LCM-LoRA模型中與LoRA結合使用時,是一種非常巧妙的創新。它們提供了更快速、更有效率地創建高品質影像這個優點,我認為它們在數位內容創建方面有著廣泛的應用前景。

參考連結:https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/ 

以上是LCM:大幅加快產生高品質影像的新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除