Stability AI在本週二推出了新一代的圖像合成模型——Stable Diffusion XL Turbo,這款模型引起了人們的熱烈反響。許多人表示,使用該模型進行圖像到文本生成變得前所未有的容易
在輸入框中輸入你的想法,SDXL Turbo 將快速響應並生成相應的內容,無需其他操作。無論你輸入的內容增多或減少,都不會影響它的速度
你可以利用現有的圖像,更精細地完成創作。只要拿一張白紙,告訴SDXL Turbo 你想要一隻白貓,還沒打完字,小白貓就已經出現在你手中了
##SDXL Turbo 模型的速度達到了近乎「即時」的程度,讓人不禁開始暢想:影像產生模型是否可以有其他用途呢
有人直接連著遊戲,獲得了2fps 的風格遷移畫面:
#根據官方部落格介紹,在A100 上,SDXL Turbo 可在207 毫秒內產生512x512 影像(即時編碼單一去噪步驟解碼,fp16),其中單一UNet 前向評估佔用了67 毫秒。
如此,我們可以判斷,文生圖已經進入「即時」時代。
這樣的「即時生成」效率,與前不久爆火的清華 LCM 模型看起來有些相似,但是它們背後的技術內容卻有所不同。 Stability 在同期發布的一篇研究論文中詳細介紹了該模型的內部工作原理。該研究重點提出了一種名為對抗擴散蒸餾(Adversarial Diffusion Distillation,ADD)的技術。 SDXL Turbo 聲稱的優勢之一是它與生成對抗網路(GAN)的相似性,特別是在生成單步影像輸出方面。
論文地址:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf
論文細節
簡單來說,對抗擴散蒸餾是一種通用方法,可將預訓練擴散模型的推理步驟數量減少到1- 4 個取樣步,同時保持高取樣保真度,並有可能進一步提高模型的整體效能。
為此,研究者引入了兩個訓練目標的組合:(i)對抗損失和(ii)與 SDS 相對應的蒸餾損失。對抗損失迫使模型在每次前向傳遞時直接生成位於真實影像流形上的樣本,避免了其他蒸餾方法中常見的模糊和其他偽影。蒸餾損失使用另一個預先訓練(且固定)的 擴散模型作為教師,有效利用其廣泛知識,並保留在大型擴散模型中觀察到的強組合性。在推理過程中,研究者未使用無分類器指導,進一步減少了記憶體需求。他們保留了模型透過迭代細化來改進結果的能力,這比先前基於 GAN 的單步方法更具優勢。
訓練步驟如圖2 所示:
#表1 展示了消融實驗的結果,下列為主要結論:
接下來是與其他 SOTA 模型的對比,此處研究者沒有採用自動化指標,而是選擇了更可靠的使用者偏好評估方法,目標是評估 prompt 遵循情況和整體影像。
為了比較多個不同的模型變體(StyleGAN-T 、OpenMUSE、IF-XL、SDXL和LCM-XL),實驗使用相同的提示產生輸出。在盲測中,SDXL Turbo以單步擊敗LCM-XL的4步配置,並且僅用4步擊敗SDXL的50步配置。透過這些結果,可以看出SDXL Turbo的性能優於最先進的多步驟模型,同時計算需求明顯降低,而不需要犧牲影像品質
##這裡呈現的是關於推理速度的ELO分數的可視化圖表
在表2中,對使用相同基礎模型的不同few-step採樣和蒸餾方法進行了比較。結果表明,ADD方法的性能優於所有其他方法,包括8步的標準DPM求解器
作為定量實驗結果的補充,論文也展示了部分定性實驗結果,展示了ADD-XL 在初始樣本基礎上的改進能力。圖 3 將 ADD-XL(1 step)與 few-step 方案中目前最佳基線進行了比較。圖 4 介紹了 ADD-XL 的迭代採樣過程。圖 8 將 ADD-XL 與其教師模型 SDXL-Base 進行了直接比較。如使用者研究所示,ADD-XL 在品質和 prompt 對齊方面都優於教師模式。
如欲了解更多的研究細節,請參考原始論文######
以上是SDXL Turbo與LCM帶來AI畫圖的即時生成時代:速度跟打字一樣快,影像瞬間呈現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具