很快啊,「文生圖新王」Stable Diffusion 3的技術報告,這就來了。
全文共28頁,誠意滿滿。
“老規矩”,宣傳海報(⬇️)直接用模型生成,再秀一把文字渲染能力:
所以,SD3這比DALL·E 3和Midjourney v6都要強的文字以及指令跟隨技能,究竟怎麼點亮的?
技術報告揭露:
全靠多模態擴散Transformer架構MMDiT。
透過對圖像和文字表示分別應用不同群組權重的方法,實現了比先前版本更強大的效能提升,這是成功的關鍵。
具體幾何,我們翻開報告來看。
微調DiT,提昇文字渲染能力
在發布SD3之初,官方就已經透露它的架構和Sora同源,屬於擴散型Transformer——DiT。
現在答案揭曉:
由於文生圖模型需要考慮文字和圖像兩種模式,Stability AI比DiT更近一步,提出了新架構MMDiT。
這裡的「MM」就是指「multimodal」。
和Stable Diffusion先前的版本一樣,官方用兩個預訓練模型來獲得合適和文字和圖像表示。
其中文字表示的編碼用三種不同的文字嵌入器(embedders)來搞定,包括兩個CLIP模型和一個T5模型。
圖像token的編碼則用一個改進的自動編碼器模型來完成。
由於文字和圖像的embedding在概念上完全不是一個東西,因此,SD3對這兩種模式使用了兩組獨立的權重。
(有網友吐槽:這個架構圖好像要啟動「人類補完計畫」啊,嗯是的,有人就是「看到了《新世紀福音戰士》的資料才點進來這篇報告的」)
言歸正傳,如上圖所示,這相當於每種模態都有兩個獨立的transformer,但會將它們的序列連接起來進行注意力操作。
這樣,兩種表示都可以在自己的空間中工作,同時還能考慮到另一種。
最終,透過這種方法,資訊可以在圖像和文字token之間“流動”,在輸出時提高模型的整體理解能力和文字渲染能力。
並且正如先前的效果展示,這種架構還可以輕鬆擴展到視訊等多種模式。
具體測試則顯示,MMDiT出於DiT卻勝於DiT:
它在訓練過程中的視覺保真度和文字對齊度都優於現有的文字到圖像backbone,例如UViT、DiT。
重新加權流技術,不斷提升效能
在發布之初,除了擴散型Transformer架構,官方也透露SD3結合了flow matching。
什麼「流」?
如今天發布的論文標題所揭露,SD3採用的正是「Rectified Flow」(RF)。
這是一個「極度簡化、一步產生」的擴散模型產生新方法,入選了ICLR2023。
它可以使模型的資料和雜訊在訓練期間以線性軌跡進行連接,產生更「直」的推理路徑,從而可以使用更少的步驟進行取樣。
基於RF,SD3在訓練過程中引入了一個全新的軌跡採樣。
它主打給軌蹟的中間部分更多權重,因為作者假設這些部分會完成更具挑戰性的預測任務。
透過多個資料集、指標和採樣器配置,與其他60個擴散軌跡方法(例如LDM、EDM和ADM)測試這一生成方法發現:
雖然以前的RF方法在少步採樣方案中表現出不錯的性能,但它們的相對性能隨著步數的增加而下降。
相較之下,SD3重新加權的RF變體可以持續提高效能。
模型能力還可以進一步提高
官方使用重新加權的RF方法和MMDiT架構對文本到圖像的生成進行了規模化研究(scaling study)。
訓練的模型範圍從15個具有4.5億參數的模組到38個具有80億參數的模組。
從中他們觀察到:隨著模型大小和訓練步驟的增加,驗證損失呈現出平滑的下降趨勢,即模型透過不斷學習適應了更為複雜的資料。
為了測試這是否在模型輸出上轉化為更有意義的改進,官方還評估了自動圖像對齊指標(GenEval)以及人類偏好評分(ELO)。
結果是:
兩者有很強的相關性。即驗證損失可以作為一個很有力的指標,預測整體模型表現。
此外,由於這裡的擴展趨勢沒有出現飽和跡象(即隨著模型規模的增加,性能仍在提升,沒有達到極限),官方很樂觀地表示:
未來的SD3效能還能持續提升。
最後,技術報告也提到了文字編碼器的問題:
透過移除用於推理的47億參數、記憶體密集型T5文字編碼器,SD3的記憶體需求可以顯著降低,但同時,效能損失很小(win rate從50%降到46%)。
不過,為了文字渲染能力,官方還是建議不要去掉T5,因為沒有它,文字表示的win rate將跌至38%。
那麼總結一下就是說:SD3的3個文字編碼器中,T5在產生帶文字圖像(以及高度詳細的場景描述圖)時貢獻是最大的。
網友:開源承諾如期兌現,感恩
SD3報告一出,不少網友就表示:
Stability AI對開源的承諾如期而至很是欣慰,希望他們能夠繼續維持並長久運作下去。
還有人就差報OpenAI大名了:
更值得欣慰的是,有人在評論區提到:
SD3模型的權重全部都可以下載,目前規劃的是8億參數、20億參數和80億參數。
速度怎麼樣?
咳咳,技術報告有提:
80億的SD3在24GB的RTX 4090上需要34s才能產生1024*1024的圖像(採樣步驟50個)——不過這只是早期未經優化的初步推理測試結果。
報告全文:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable Diffusion 3 Paper.pdf 。
參考連結:
#[1]https://stability.ai/news/stable-diffusion- 3-research-paper。
[2]https://news.ycombinator.com/item?id=39599958。
以上是Stable Diffusion 3技術報告出爐:揭露Sora同款架構細節的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3漢化版
中文版,非常好用

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!