搜尋
首頁科技週邊人工智慧顏水成/程明明新作! Sora核心元件DiT訓練加速10倍,Masked Diffusion Transformer V2開源

作為Sora引人注目的核心技術之一,DiT利用Diffusion Transformer將生成模型擴展到更大的規模,從而實現出色的影像生成效果。

然而,更大的模型規模導致訓練成本飆升。

Sea AI Lab、南開大學、崑崙萬維2050研究院的顏水成和程明明研究團隊在ICCV 2023會議上提出了一個名為Masked Diffusion Transformer的新模型。該模型利用mask建模技術,透過學習語意表徵資訊來加快Diffusion Transfomer的訓練速度,並在影像生成領域中取得了SoTA的效果。這項創新為圖像生成模型的發展帶來了新的突破,為研究者提供了一個更有效率的訓練方法。透過結合不同領域的專業知識和技術,研究團隊成功地提出了一種能夠提高訓練速度並改善產生效果的解決方案。他們的工作為人工智慧領域的發展貢獻了重要的創新思路,為未來的研究和實踐提供了有益的啟

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

##論文網址:https://arxiv.org/abs/2303.14389

GitHub網址:https://github.com/sail-sg/MDT颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

#近日,Masked Diffusion Transformer V2再次刷新SoTA, 相比DiT的訓練速度提升10倍以上,並實現了ImageNet benchmark 上1.58的FID score。

最新版本的論文和程式碼都已開源。

背景

儘管以DiT 為代表的擴散模型在影像生成領域取得了顯著的成功,但研究者發現擴散模型往往難以有效率地學習影像中物體各部分之間的語意關係,這一限制導致了訓練過程的低收斂效率。

圖片

#例如上圖所示,DiT在第50k次訓練步驟時已經學會生成狗的毛髮紋理,然後在第200k次訓練步驟時才學會生成狗的一隻眼睛和嘴巴,但是卻漏生成了另一隻眼睛。

即使在第300k次訓練步驟時,DiT產生的狗的兩隻耳朵的相對位置也不是非常準確。

這個訓練學習過程揭示了擴散模型未能有效率地學習到影像中物體各部分之間的語意關係,而只是獨立地學習每個物體的語意資訊。 颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

研究者推測這一現象的原因是擴散模型透過最小化每個像素的預測損失來學習真實影像資料的分佈,這個過程忽略了影像中物體各部分之間的語意相對關係,因此導致模型的收斂速度緩慢。

方法:Masked Diffusion Transformer

######受到上述觀察的啟發,研究者提出了Masked Diffusion Transformer (MDT) 提高擴散模型的訓練效率和生成品質。 ############MDT提出了一個針對Diffusion Transformer 設計的mask modeling表徵學習策略,以明確地增強Diffusion Transformer對上下文語義資訊的學習能力,並增強圖像中物體之間語意資訊的關聯學習。 ##################圖片################如上圖所示,MDT在維持擴散訓練過程的同時引入mask modeling學習策略。透過mask部分加雜訊的圖像token,MDT利用一個非對稱Diffusion Transformer (Asymmetric Diffusion Transformer) 架構從未被mask的加噪聲的圖像token預測被mask部分的圖像token,從而同時實現mask modeling 和擴散訓練過程。 ##########

在推理過程中,MDT仍維持標準的擴散生成過程。 MDT的設計有助於Diffusion Transformer同時具有mask modeling表徵學習帶來的語意資訊表達能力和擴散模型對影像細節的生成能力。

具體而言,MDT透過VAE encoder將圖片對應到latent空間,並在latent空間中處理以節省計算成本。

在訓練過程中,MDT先mask掉部分加雜訊後的影像token,並將剩餘的token送入Asymmetric Diffusion Transformer來預測去雜訊後的全部影像token。

Asymmetric Diffusion Transformer架構

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

如上圖所示,Asymmetric Diffusion Transformer架構包含encoder、side-interpolater(輔助插值器)和decoder。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

在訓練過程中,Encoder只處理未被mask的token;而在在推理過程中,由於沒有mask步驟,它會處理所有token。

因此,為了確保在訓練或推理階段,decoder總是能處理所有的token,研究者提出了一個方案:在訓練過程中,透過一個由DiT block組成的輔助插值器(如上圖所示),從encoder的輸出中插值預測出被mask的token,並在推理階段將其移除因而不增加任何推理開銷。

MDT的encoder和decoder在標準的DiT block中插入全域和局部位置編碼資訊以幫助預測mask部分的token。

Asymmetric Diffusion Transformer V2

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

如上圖所示,MDTv2透過引入了一個針對Masked Diffusion過程設計的更為高效的宏觀網路結構,進一步優化了diffusion和mask modeling的學習過程。

這包括在encoder中融合了U-Net式的long-shortcut,在decoder中整合了dense input-shortcut。

其中,dense input-shortcut將添加噪後的被mask的token送入decoder,保留了被mask的token對應的噪聲信息,從而有助於diffusion過程的訓練。

此外,MDT還引入了包括採用更快的Adan優化器、time-step相關的損失權重,以及擴大掩碼比率等更優的訓練策略來進一步加速Masked Diffusion模型的訓練過程。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源實驗結果

ImageNet 256基準產生品質比較

圖片

上表比較了不同模型尺寸下MDT與DiT在ImageNet 256基準下的效能比較。

顯而易見,MDT在所有模型規模上都以較少的訓練成本實現了更高的FID分數。

MDT的參數和推理成本與DiT基本一致,因為如前文所介紹的,MDT推理過程中仍保持與DiT一致的標準的diffusion過程。 ############對於最大的XL模型,經過400k步驟訓練的MDTv2-XL/2,顯著超過了經過7000k步驟訓練的DiT-XL/2,FID分數提高了1.92。在這一setting下,結果顯示了MDT相對DiT有約18倍的訓練加速。 ##########

对于小型模型,MDTv2-S/2 仍然以显著更少的训练步骤实现了相比DiT-S/2显著更好的性能。例如同样训练400k步骤,MDTv2以39.50的FID指标大幅领先DiT 68.40的FID指标。

更重要的是,这一结果也超过更大模型DiT-B/2在400k训练步骤下的性能(39.50 vs 43.47)。

ImageNet 256基准CFG生成质量比较

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源图片

我们还在上表中比较了MDT与现有方法在classifier-free guidance下的图像生成性能。

MDT以1.79的FID分数超越了以前的SOTA DiT和其他方法。MDTv2进一步提升了性能,以更少的训练步骤将图像生成的SOTA FID得分推至新低,达到1.58。

与DiT类似,我们在训练过程中没有观察到模型的FID分数在继续训练时出现饱和现象。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源MDT在PaperWithCode的leaderboard上刷新SoTA

收敛速度比较

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源图片

上图比较了ImageNet 256基准下,8×A100 GPU上DiT-S/2基线、MDT-S/2和MDTv2-S/2在不同训练步骤/训练时间下的FID性能。

得益于更优秀的上下文学习能力,MDT在性能和生成速度上均超越了DiT。MDTv2的训练收敛速度相比DiT提升10倍以上。

MDT在训练步骤和训练时间方面大相比DiT约3倍的速度提升。MDTv2进一步将训练速度相比于MDT提高了大约5倍。

例如,MDTv2-S/2仅需13小时(15k步骤)就展示出比需要大约100小时(1500k步骤)训练的DiT-S/2更好的性能,这揭示了上下文表征学习对于扩散模型更快的生成学习至关重要。

总结&讨论

MDT通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,能够利用图像物体的上下文信息重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,进而提升图像生成的质量和学习速度。

研究者认为,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。这正与Sora期待的通过生成模型构建物理世界模拟器的理念不谋而合。希望该工作能够激发更多关于统一表征学习和生成学习的工作。

参考资料:

https://arxiv.org/abs/2303.14389

以上是顏水成/程明明新作! Sora核心元件DiT訓練加速10倍,Masked Diffusion Transformer V2開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。