搜尋
首頁科技週邊人工智慧Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助?

Stable Diffusion 3 的论文终于来了!

这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。

与之前版本相比,Stable Diffusion 3 生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。

Stability AI 指出,Stable Diffusion 3 是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI大型模型的门槛。

在最新发布的论文中,Stability AI 表示,在基于人类偏好的评估中,Stable Diffusion 3 优于当前最先进的文本到图像生成系统,如 DALL・E 3、Midjourney v6 和 Ideogram v1。不久之后,他们将公开该研究的实验数据、代码和模型权重。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

在论文中,Stability AI 透露了关于 Stable Diffusion 3 的更多细节。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

  • 论文标题:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
  • 论文链接:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable Diffusion 3 Paper.pdf

架构细节

对于文本到图像的生成,Stable Diffusion 3 模型必须同时考虑文本和图像两种模式。因此,论文作者称这种新架构为 MMDiT,意指其处理多种模态的能力。与之前版本的 Stable Diffusion 一样,作者使用预训练模型来推导合适的文本和图像表征。具体来说,他们使用了三种不同的文本嵌入模型 —— 两种 CLIP 模型和 T5—— 来编码文本表征,并使用改进的自编码模型来编码图像 token。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stable Diffusion 3 模型架构。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

改进的多模态扩散 transformer:MMDiT 块。

SD3 架构基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合作提出的 DiT。由于文本嵌入和图像嵌入在概念上有很大不同,因此 SD3 的作者对两种模态使用两套不同的权重。如上图所示,这相当于为每种模态设置了两个独立的 transformer,但将两种模态的序列结合起来进行注意力运算,从而使两种表征都能在各自的空间内工作,同时也将另一种表征考虑在内。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

在训练过程中测量视觉保真度和文本对齐度时,作者提出的 MMDiT 架构优于 UViT 和 DiT 等成熟的文本到图像骨干。

通过这种方法,信息可以在图像和文本 token 之间流动,从而提高模型的整体理解能力,并改善所生成输出的文字排版。正如论文中所讨论的那样,这种架构也很容易扩展到视频等多种模式。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

得益于 Stable Diffusion 3 改进的提示遵循能力,新模型有能力制作出聚焦于各种不同主题和质量的图像,同时还能高度灵活地处理图像本身的风格。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

透過re-weighting 改進Rectified Flow

Stable Diffusion 3 採用Rectified Flow(RF)公式,在訓練過程中,資料和雜訊以線性軌跡相連。這使得推理路徑更加平直,從而減少了取樣步驟。此外,作者還在訓練過程中引入了新的軌跡採樣計劃。他們假設,軌跡的中間部分會帶來更具挑戰性的預測任務,因此該計劃給予軌跡中間部分更多權重。他們使用多種資料集、指標和採樣器設定進行比較,並將自己提出的方法與 LDM、EDM 和 ADM 等 60 種其他擴散軌跡進行了測試。結果表明,雖然先前的 RF 公式在少步採樣情況下性能有所提高,但隨著步數的增加,其相對性能會下降。相較之下,作者提出的重新加權 RF 變體能持續提高性能。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

擴展Rectified Flow Transformer 模型

作者利用重新加權的Rectified Flow 公式和MMDiT 骨幹對文本到圖像的合成進行了擴展(scaling)研究。他們訓練的模型從帶有450M 個參數的15 個區塊到帶有8B 個參數的38 個區塊不等,並觀察到驗證損失隨著模型大小和訓練步驟的增加而平穩降低(上圖的第一行)。為了檢驗這是否轉化為對模型輸出的有意義改進,作者也評估了自動影像對齊指標(GenEval)和人類偏好分數(ELO)(上圖第二行)。結果表明,這些指標與驗證損失之間存在很強的相關性,這表明後者可以很好地預測模型的整體性能。此外,scaling 趨勢沒有顯示出飽和的跡象,這讓作者對未來繼續提高模型表現持樂觀態度。

靈活的文字編碼器

透過移除用於推理的記憶體密集型4.7B 參數T5 文字編碼器,SD3 的內存需求可顯著降低,而性能損失卻很小。如圖所示,移除此文字編碼器不會影響視覺美感(不使用 T5 時的勝率為 50%),只會略微降低文字一致性(勝率為 46%)。不過,作者建議在生成書面文本時加入T5,以充分發揮SD3 的性能,因為他們觀察到,如果不加入T5,生成排版的性能下降幅度更大(勝率為38%),如下圖所示:

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

只有在呈現涉及許多細節或大量書面文字的非常複雜的提示時,移除T5 進行推理才會導致效能顯著下降。上圖顯示了每個範例的三個隨機樣本。

模型效能

作者將Stable Diffusion 3 的輸出映像與其他各種開源模型(包括SDXL、SDXL Turbo、Stable Cascade、 Playground v2.5 和Pixart-α)以及閉源模型(如DALL-E 3、Midjourney v6 和Ideogram v1)進行了比較,以便根據人類回饋來評估表現。在這些測試中,人類評估員從每個模型中獲得輸出範例,並根據模型輸出在多大程度上遵循所給提示的上下文(prompt following)、在多大程度上根據提示渲染文字(typography)以及哪幅影像具有更高的美學品質(visual aesthetics)來選擇最佳結果。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

以 SD3 為基準,這個圖表概述了它在基於人類對視覺美學、提示遵循和文字排版的評估中的勝率。

從測試結果來看,作者發現 Stable Diffusion 3 在上述所有方面都與當前最先進的文本到圖像生成系統相當,甚至更勝一籌。

在消費級硬體上進行的早期未優化推理測試中,最大的8B 參數SD3 模型適合RTX 4090 的24GB VRAM,使用50 個採樣步驟生成分辨率為1024x1024 的影像需要34 秒。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

#

此外,在最初發佈時,Stable Diffusion 3 將有多種變體,從 800m 到 8B 參數模型不等,以進一步消除硬體障礙。

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

更多細節請參考原始論文。

參考連結:https://stability.ai/news/stable-diffusion-3-research-paper

以上是Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具