搜尋
首頁科技週邊人工智慧LCM:大幅加快產生高品質影像的新方法

作者丨Mike Young

譯文:重新創作內容而不改變原義的語言是中文,無需出現原句

審校內容,無需改變原意,需要將語言改寫為中文,不需要出現原句

推薦| 51CTO技術堆疊(微訊號:blog51cto)

LCM:大幅加快產生高品質影像的新方法##圖片

LCM:大幅加快產生高品質影像的新方法#由於一項名為潛在一致性模型(LCM)的新技術的出現,AI將迎來在將文字轉換成圖像方面的重大突破。傳統方法如潛在擴散模型(LDM)在使用文字提示產生詳細、創意影像方面表現出色,但其致命缺點是速度較慢。使用LDM產生單一影像可能需要進行數百個步驟,這對於許多實際應用來說速度實在太慢了

重新寫成中文: LCM透過減少生成影像所需步驟的數量來改變遊戲規則。與LDM需要數百步驟才能辛苦地產生影像相比,LCM只需1到4步就能得到類似品質的結果。為了實現這種效率,LCM將預先訓練的LDM提煉成更簡潔的形式,從而大大減少了所需的運算資源和時間。我們將分析一篇最近的論文,介紹LDM模型的工作原理

本文也介紹了名為LCM-LoRA的創新,這是一種通用的Stable-Diffusion加速模組。此模組可以插入到各種Stable--Diffusion微調模型,無需任何額外的訓練。它是一種普遍適用的工具,可以加速各種影像生成任務,使其成為利用AI創建影像的潛在利器。我們也將剖析論文的這個部分。

1、高效訓練LCM

在神經網路領域,存在著一個巨大的挑戰,即需要龐大的運算能力,尤其是在訓練複雜方程式的神經網絡時。然而,這篇論文的團隊採用了一種名為提煉的巧妙方法,成功地解決了這個問題

LCM:大幅加快產生高品質影像的新方法#重寫後的內容: 研究團隊的方法如下:首先,他們使用一個文字與圖像配對的資料集來訓練一個標準的潛在擴散模型(LDM)。一旦LDM被啟動並運行,他們將其用作導師,產生新的訓練資料。然後,他們使用這些新數據來訓練潛在一致性模型(LCM)。最吸引人的是,LCM可以從LDM的能力中學習,而無需從頭開始使用龐大的資料集進行訓練

真正重要的是這個過程的效率。研究人員僅使用單一GPU就在大約32小時內完成了高品質LCM的訓練。這很重要,因為它比以前的方法快得多、實用得多。這意味著現在更多的人和專案都可以創建這種先進的模型,而不是只有享有超級運算資源的人才能創建。

圖1、LCM-LoRA概述

##########透過將LoRA引入LCM的提煉過程中,我們大幅降低了提煉的記憶體開銷,這使得我們可以用有限的資源訓練更龐大的模型,例如SDXL和SSD-1B。更重要的是,透過LCM-LoRA訓練獲得的LoRA參數(「加速向量」)可以直接與透過針對特定樣式的資料集進行微調所獲得的其他LoRA參數(「樣式向量」)結合。無需任何訓練,由加速向量和樣式向量的線性組合獲得的模型獲得了以最少的採樣步驟生成特定繪畫樣式的圖像這種能力。 ######2、結果############研究展示了基於潛在一致性模型(LCM)利用AI生成影像的重大進展。 LCM擅長僅用四個步驟就能創建高品質的512x512影像,與潛在擴散模型(LDM)等傳統模型所需的數百個步驟相比有了顯著改進。這些影像擁有清晰的細節和逼真的紋理,這個優點在下面的例子中特別明顯。 ##################圖片#########圖2、論文聲稱:「使用從不同的預訓練擴散模型中提取的潛在一致性模型產生的影像。我們使用LCM-LoRA-SD-V1.5產生512×512解析度的影像,使用LCM-LoRA-SDXL和LCM-LoRA-SSD-1B產生1024×1024解析度的影像。」## ##########這些模型不僅可以輕鬆處理較小的圖像,還擅長生成更龐大的1024x1024圖像。它們展示了一種擴展到比以前大得多的神經網路模型的能力,展示了其適應能力。在論文中的範例中(例如LCM-LoRA-SD-V1.5和LCM-LoRA-SSD-1B版本的範例),闡明了該模型在各種資料集和實際場景中的廣泛適用性### ###3、限制##########

LCM的目前版本有幾個限制。最重要的是兩個階段的訓練過程:先訓練LDM,然後用它來訓練LCM。在未來的研究中,可能會探索一種更直接的LDM訓練方法,因而可能不需要LDM。論文主要討論無條件圖像生成,條件生成任務(例如文字到圖像的合成)可能需要做更多的工作。

4、主要的啟示

潛在一致性模型(LCM)在快速產生高品質影像方面邁出了重要一步。這些模型只需1到4步就能產生與較慢的LDM相媲美的結果,可能會徹底改變文字到影像模型的實際應用。雖然目前存在一些局限性,特別是在訓練過程和生成任務的範圍方面,但LCM標誌著基於神經網路的實用影像生成取得了重大進展。提供的範例強調了這些模型的潛力

5、LCM-LoRA作為通用加速模組

在引言中提到的,該論文分為兩個部分。第二部分討論了LCM-LoRA技術,它能夠使用較少的記憶體對預訓練模型進行微調,從而提高效率

這裡的關鍵創新是將LoRA參數整合到LCM中,從而產生結合兩者優點的混合模型。這種整合對於創建特定樣式的圖像或響應特定任務特別有用。如果選擇和組合不同的LoRA參數集,每個參數集都針對獨特的樣式進行微調,研究人員創建了一個多功能模型,可以用最少的步驟生成圖像,不需要額外的訓練。

透過將針對特定繪畫樣式進行微調的LoRA參數與LCM-LoRA參數結合的例子,他們在研究中證明了這一點。這種組合允許在不同的取樣步驟(如2步、4步、8步、16步和32步)創建樣式迥異的1024 × 1024解析度影像。結果顯示,這些組合的參數無需進一步訓練即可產生高品質的圖像,凸顯了該模型的效率和通用性

這裡值得關注的一個地方是使用所謂的“加速向量」(τLCM)和「樣式向量」(τ),兩者使用特定的數學公式(λ1和λ2是這些公式中的可調整因子)組合在一起。這種組合產生的模型可以快速地產生客製化樣式的圖像。   

論文中的圖3(如下)透過展示特定樣式LoRA參數與LCM-LoRA參數結合的結果,顯示了此方法的有效性。這證明了該模型能夠快速且有效率地產生樣式不同的圖像。

LCM:大幅加快產生高品質影像的新方法圖3


#總的來說,本文的這一部分強調了LCM-LoRA模型的通用性和高效性,它可以用於快速生成高品質的特定樣式圖像,而只需使用很少的計算資源。該技術的應用範圍廣泛,預計將徹底改變從數位藝術到自動化內容創作等各個領域中圖像生成的方式

6、結論

我們研究了一種新的方法,即潛在一致性模型(LCM),用於加快從文字生成圖像的過程。與傳統的潛在擴散模型(LDM)不同,LCM只需1到4個步驟即可產生類似品質的影像,而不需要數百個步驟。這種顯著的效率提升是透過提煉方法實現的,即使用預先訓練的LDM來訓練LCM,從而避免了大量的計算

此外,我們也研究了LCM-LoRA ,這是一種使用低秩自適應(LoRA)對預訓練模型進行微調的增強技術,以降低記憶體需求。這種整合方法可以在不需要額外訓練的情況下,透過最小的計算步驟創建特定樣式的圖像

#著重強調的關鍵結果包括LCM僅用幾個步驟就能創建高品質的512x512和1024x1024影像,而LDM卻需要數百個步驟。然而,目前存在的限制是LDM依賴兩步驟訓練過程,因此你仍需要LDM開始入手!未來的研究可能會簡化這個過程。

LCM特別是在提議的LCM-LoRA模型中與LoRA結合使用時,是一種非常巧妙的創新。它們提供了更快速、更有效率地創建高品質影像這個優點,我認為它們在數位內容創建方面有著廣泛的應用前景。

參考連結:https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/ 

以上是LCM:大幅加快產生高品質影像的新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能