搜尋
首頁科技週邊人工智慧顏水成/程明明新作! Sora核心元件DiT訓練加速10倍,Masked Diffusion Transformer V2開源

作為Sora引人注目的核心技術之一,DiT利用Diffusion Transformer將生成模型擴展到更大的規模,從而實現出色的影像生成效果。

然而,更大的模型規模導致訓練成本飆升。

Sea AI Lab、南開大學、崑崙萬維2050研究院的顏水成和程明明研究團隊在ICCV 2023會議上提出了一個名為Masked Diffusion Transformer的新模型。該模型利用mask建模技術,透過學習語意表徵資訊來加快Diffusion Transfomer的訓練速度,並在影像生成領域中取得了SoTA的效果。這項創新為圖像生成模型的發展帶來了新的突破,為研究者提供了一個更有效率的訓練方法。透過結合不同領域的專業知識和技術,研究團隊成功地提出了一種能夠提高訓練速度並改善產生效果的解決方案。他們的工作為人工智慧領域的發展貢獻了重要的創新思路,為未來的研究和實踐提供了有益的啟

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

##論文網址:https://arxiv.org/abs/2303.14389

GitHub網址:https://github.com/sail-sg/MDT颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

#近日,Masked Diffusion Transformer V2再次刷新SoTA, 相比DiT的訓練速度提升10倍以上,並實現了ImageNet benchmark 上1.58的FID score。

最新版本的論文和程式碼都已開源。

背景

儘管以DiT 為代表的擴散模型在影像生成領域取得了顯著的成功,但研究者發現擴散模型往往難以有效率地學習影像中物體各部分之間的語意關係,這一限制導致了訓練過程的低收斂效率。

圖片

#例如上圖所示,DiT在第50k次訓練步驟時已經學會生成狗的毛髮紋理,然後在第200k次訓練步驟時才學會生成狗的一隻眼睛和嘴巴,但是卻漏生成了另一隻眼睛。

即使在第300k次訓練步驟時,DiT產生的狗的兩隻耳朵的相對位置也不是非常準確。

這個訓練學習過程揭示了擴散模型未能有效率地學習到影像中物體各部分之間的語意關係,而只是獨立地學習每個物體的語意資訊。 颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

研究者推測這一現象的原因是擴散模型透過最小化每個像素的預測損失來學習真實影像資料的分佈,這個過程忽略了影像中物體各部分之間的語意相對關係,因此導致模型的收斂速度緩慢。

方法:Masked Diffusion Transformer

######受到上述觀察的啟發,研究者提出了Masked Diffusion Transformer (MDT) 提高擴散模型的訓練效率和生成品質。 ############MDT提出了一個針對Diffusion Transformer 設計的mask modeling表徵學習策略,以明確地增強Diffusion Transformer對上下文語義資訊的學習能力,並增強圖像中物體之間語意資訊的關聯學習。 ##################圖片################如上圖所示,MDT在維持擴散訓練過程的同時引入mask modeling學習策略。透過mask部分加雜訊的圖像token,MDT利用一個非對稱Diffusion Transformer (Asymmetric Diffusion Transformer) 架構從未被mask的加噪聲的圖像token預測被mask部分的圖像token,從而同時實現mask modeling 和擴散訓練過程。 ##########

在推理過程中,MDT仍維持標準的擴散生成過程。 MDT的設計有助於Diffusion Transformer同時具有mask modeling表徵學習帶來的語意資訊表達能力和擴散模型對影像細節的生成能力。

具體而言,MDT透過VAE encoder將圖片對應到latent空間,並在latent空間中處理以節省計算成本。

在訓練過程中,MDT先mask掉部分加雜訊後的影像token,並將剩餘的token送入Asymmetric Diffusion Transformer來預測去雜訊後的全部影像token。

Asymmetric Diffusion Transformer架構

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

如上圖所示,Asymmetric Diffusion Transformer架構包含encoder、side-interpolater(輔助插值器)和decoder。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

在訓練過程中,Encoder只處理未被mask的token;而在在推理過程中,由於沒有mask步驟,它會處理所有token。

因此,為了確保在訓練或推理階段,decoder總是能處理所有的token,研究者提出了一個方案:在訓練過程中,透過一個由DiT block組成的輔助插值器(如上圖所示),從encoder的輸出中插值預測出被mask的token,並在推理階段將其移除因而不增加任何推理開銷。

MDT的encoder和decoder在標準的DiT block中插入全域和局部位置編碼資訊以幫助預測mask部分的token。

Asymmetric Diffusion Transformer V2

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源圖片

如上圖所示,MDTv2透過引入了一個針對Masked Diffusion過程設計的更為高效的宏觀網路結構,進一步優化了diffusion和mask modeling的學習過程。

這包括在encoder中融合了U-Net式的long-shortcut,在decoder中整合了dense input-shortcut。

其中,dense input-shortcut將添加噪後的被mask的token送入decoder,保留了被mask的token對應的噪聲信息,從而有助於diffusion過程的訓練。

此外,MDT還引入了包括採用更快的Adan優化器、time-step相關的損失權重,以及擴大掩碼比率等更優的訓練策略來進一步加速Masked Diffusion模型的訓練過程。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源實驗結果

ImageNet 256基準產生品質比較

圖片

上表比較了不同模型尺寸下MDT與DiT在ImageNet 256基準下的效能比較。

顯而易見,MDT在所有模型規模上都以較少的訓練成本實現了更高的FID分數。

MDT的參數和推理成本與DiT基本一致,因為如前文所介紹的,MDT推理過程中仍保持與DiT一致的標準的diffusion過程。 ############對於最大的XL模型,經過400k步驟訓練的MDTv2-XL/2,顯著超過了經過7000k步驟訓練的DiT-XL/2,FID分數提高了1.92。在這一setting下,結果顯示了MDT相對DiT有約18倍的訓練加速。 ##########

对于小型模型,MDTv2-S/2 仍然以显著更少的训练步骤实现了相比DiT-S/2显著更好的性能。例如同样训练400k步骤,MDTv2以39.50的FID指标大幅领先DiT 68.40的FID指标。

更重要的是,这一结果也超过更大模型DiT-B/2在400k训练步骤下的性能(39.50 vs 43.47)。

ImageNet 256基准CFG生成质量比较

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源图片

我们还在上表中比较了MDT与现有方法在classifier-free guidance下的图像生成性能。

MDT以1.79的FID分数超越了以前的SOTA DiT和其他方法。MDTv2进一步提升了性能,以更少的训练步骤将图像生成的SOTA FID得分推至新低,达到1.58。

与DiT类似,我们在训练过程中没有观察到模型的FID分数在继续训练时出现饱和现象。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源MDT在PaperWithCode的leaderboard上刷新SoTA

收敛速度比较

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源图片

上图比较了ImageNet 256基准下,8×A100 GPU上DiT-S/2基线、MDT-S/2和MDTv2-S/2在不同训练步骤/训练时间下的FID性能。

得益于更优秀的上下文学习能力,MDT在性能和生成速度上均超越了DiT。MDTv2的训练收敛速度相比DiT提升10倍以上。

MDT在训练步骤和训练时间方面大相比DiT约3倍的速度提升。MDTv2进一步将训练速度相比于MDT提高了大约5倍。

例如,MDTv2-S/2仅需13小时(15k步骤)就展示出比需要大约100小时(1500k步骤)训练的DiT-S/2更好的性能,这揭示了上下文表征学习对于扩散模型更快的生成学习至关重要。

总结&讨论

MDT通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,能够利用图像物体的上下文信息重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,进而提升图像生成的质量和学习速度。

研究者认为,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。这正与Sora期待的通过生成模型构建物理世界模拟器的理念不谋而合。希望该工作能够激发更多关于统一表征学习和生成学习的工作。

参考资料:

https://arxiv.org/abs/2303.14389

以上是顏水成/程明明新作! Sora核心元件DiT訓練加速10倍,Masked Diffusion Transformer V2開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
win7模拟器win7模拟器Jul 22, 2023 pm 01:01 PM

win7模拟器是什么?相信很多小伙伴都没有听说过,win7模拟器其实是一款为朋友们打造的在手机上模拟使用win7系统的软件,接下来就让小编给大家带来win7模拟器介绍,相信看完你们就会对win7模拟器有更深的了解。win7系统很多的朋友在电脑上都使用过了,但是你们有在手机上使用过win7系统吗?win7模拟器就是一款为朋友们打造的在手机上模拟使用win7系统的软件,让大家可以使用本款软件在安卓手机上来使用win7系统,体验经典的win7界面,可以点击使用我的电脑、开始菜单等各种模块,可以进行各种

没等来OpenAI,等来了Open-Sora全面开源没等来OpenAI,等来了Open-Sora全面开源Mar 18, 2024 pm 08:40 PM

不久前OpenAISora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora1.0」模型生成的都市繁华掠影视频。Open-Sora1.0

加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布Jan 25, 2024 am 08:15 AM

加油站宇宙再次扩张!由Drago娱乐和心跳游戏HBG共同合作推出的《加油站大亨》再次迎来了全新的DLC《废车场》,你的商业帝国将变得更加庞大,此DLC将在第二季度正式和玩家见面,而在第一季度将会推出《踏浪而行》DLC。新的商机一个叫本杰明的家伙和他的宠物鹦鹉建立了一个废车场的生意,但现在他想要处理这桩生意,做好准备接管它们,扩大你的加油站。学会如何处理废旧汽车,卖掉车上拆下来的金属,赚取利润。保留可以在车库重复使用的零件,或者以更高的价格卖掉它们。为那些想要某些汽车的特殊客户定制汽车,你可以从你

雷电模拟器可以加速游戏吗雷电模拟器可以加速游戏吗Feb 01, 2024 pm 07:54 PM

雷电模拟器可以加速游戏吗?雷电模拟器是有脚本加速功能的,雷电模拟器加速执行是指脚本加速,包括循环脚本的间隔时间,加速执行的倍速等都可以设置,功能可以在模拟器启动时执行,也可以在指定时间后自动重启模拟器。还有很多朋友还不知道该怎么使用,快来看看吧。雷电模拟器可以加速游戏吗1、相信很多玩游戏的朋友都听说过游戏加速工具。2、不过雷电模拟器的脚本加速执行与它是完全不同的。3、这里的加速执行只是对脚本播放的加速,类似于倍速播放视频。4、举例来说,我们循环一个长达1分钟的脚本,设置循环时间1个小时。5、然后

华硕组装机怎么开vt?华硕组装机怎么开vt?Feb 02, 2024 pm 08:39 PM

华硕组装机怎么开vt?要在华硕组装机上开启VT,首先需要进入计算机的BIOS设置页面。开机时按下相应的按键(一般是Delete键或F2键),进入BIOS界面后找到Advanced或者Security选项菜单,然后找到IntelVirtualizationTechnology或者VT-x选项,将其设置为Enabled。接着保存设置并退出BIOS界面,计算机会自动重启并且VT功能就被成功开启了。需要注意的是,不同型号的华硕主板可能会有些许差异,具体的操作步骤可能会有所不同,还请根据实际情况进行操作。

设置Debian11的默认终端模拟器的方法设置Debian11的默认终端模拟器的方法Jan 04, 2024 pm 10:10 PM

Debian11如何设置默认终端模拟器?随小编一起看一下具体操作吧。点【所有应用程序】-【设置】-【设置管理器】。单击【默认应用程序】。切换到【实用程序】选项卡,找到【终端模拟器】选项,点下拉按钮,下拉菜单中单击要设置的默认终端即可。

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收Feb 26, 2024 am 08:01 AM

2月16日,OpenAISora的发布无疑标志着视频生成领域的一次重大突破。Sora基于DiffusionTransformer架构,和市面上大部分主流方法(由2DStableDiffusion扩展)并不相同。为什么Sora坚持使用DiffusionTransformer,其中的原因从同时期发表在ICLR2024(VDT:General-purposeVideoDiffusionTransformersviaMaskModeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加

雷电模拟器可以改地址吗雷电模拟器可以改地址吗Jan 30, 2024 pm 10:45 PM

雷电模拟器是一款安卓模拟器,很多玩家会使用雷电模拟器多开游戏挂机,一些游戏本地多开会有封号危险,目前使用雷电安卓模拟器不能进行手动修改地址,不过可以手动修改IMEI设备号,在中,点击属性设置,即可查看,同时点击即可修改。雷电模拟器可以改地址吗1、目前雷电模拟器不支持修改ip的操作。2、如果想要修改ip,可以使用第三方软件。3、不过雷电模拟器可以修改IMEI编码,只要点击右上角“设置”4、然后点击左边栏的“机型设置”5、进入后,在右边就可以修改“IMEI编码”了。通过修改IMEI码可以改变设备型号

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。