cari
RumahPeranti teknologiAIKarya baharu oleh Yan Shuicheng/Cheng Mingming! Latihan DiT, komponen teras Sora, dipercepatkan sebanyak 10 kali, dan Masked Diffusion Transformer V2 ialah sumber terbuka

Sebagai salah satu teknologi teras Sora yang menarik, DiT menggunakan Diffusion Transformer untuk menskalakan model generatif kepada skala yang lebih besar untuk mencapai kesan penjanaan imej yang cemerlang.

Namun, saiz model yang lebih besar menyebabkan kos latihan melambung tinggi.

Pasukan penyelidik Yan Shuicheng dan Cheng Mingming dari Sea AI Lab, Nankai University, dan Institut Penyelidikan Kunlun Wanwei 2050 mencadangkan model baharu yang dipanggil Masked Diffusion Transformer pada persidangan ICCV 2023. Model ini menggunakan teknologi pemodelan topeng untuk mempercepatkan latihan Diffusion Transformer dengan mempelajari maklumat perwakilan semantik, dan mencapai keputusan SoTA dalam bidang penjanaan imej. Inovasi ini membawa penemuan baharu kepada pembangunan model penjanaan imej dan menyediakan penyelidik kaedah latihan yang lebih cekap. Dengan menggabungkan kepakaran dan teknologi dari pelbagai bidang, pasukan penyelidik berjaya mencadangkan penyelesaian yang meningkatkan kelajuan latihan dan meningkatkan hasil penjanaan. Kerja mereka telah menyumbang idea inovatif yang penting kepada pembangunan bidang kecerdasan buatan dan memberikan inspirasi berguna untuk penyelidikan dan amalan masa depan 2303.14389

Alamat GitHub: https://github.com/sail-sg/MDT

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Baru-baru ini. , Masked Diffusion Transformer V2 telah menyegarkan semula SoTA Berbanding dengan DiT, kelajuan latihan meningkat lebih daripada 10 kali ganda, dan ia telah mencapai penanda aras ImageNet 1.58.

Versi terkini kertas dan kod adalah sumber terbuka.

Latar Belakang

Walaupun model resapan yang diwakili oleh DiT telah mencapai kejayaan yang ketara dalam bidang penjanaan imej, penyelidik mendapati bahawa model resapan selalunya sukar untuk mempelajari hubungan semantik antara bahagian objek dalam imej dengan cekap, yang mana Satu had membawa kepada kecekapan penumpuan yang rendah bagi proses latihan.

Gambar

Sebagai contoh, seperti yang ditunjukkan dalam gambar di atas, DiT telah belajar untuk menjana tekstur rambut anjing pada langkah latihan ke-50, dan kemudian belajar untuk menjana salah satu daripada mata anjing pada ke-200. langkah latihan dan mulut, tetapi mata lain hilang.

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源 Walaupun pada langkah latihan 300k, kedudukan relatif dua telinga anjing yang dijana oleh DiT tidak begitu tepat.

Proses latihan dan pembelajaran ini mendedahkan bahawa model resapan gagal mempelajari secara cekap hubungan semantik antara pelbagai bahagian objek dalam imej, tetapi hanya mempelajari maklumat semantik setiap objek secara bebas.

Para penyelidik membuat spekulasi bahawa sebab fenomena ini ialah model penyebaran mempelajari pengedaran data imej sebenar dengan meminimumkan kehilangan ramalan setiap piksel Proses ini mengabaikan hubungan relatif semantik antara pelbagai bahagian objek dalam imej, dengan itu membawa kepada Model menumpu secara perlahan.

Kaedah: Masked Diffusion Transformer

Diinspirasikan oleh pemerhatian di atas, penyelidik mencadangkan Masked Diffusion Transformer (MDT) untuk meningkatkan kecekapan latihan dan kualiti penjanaan model resapan.

MDT mencadangkan strategi pembelajaran perwakilan pemodelan topeng yang direka bentuk untuk Diffusion Transformer untuk meningkatkan secara eksplisit keupayaan pembelajaran Diffusion Transformer bagi maklumat semantik kontekstual dan meningkatkan pembelajaran perkaitan maklumat semantik antara objek dalam imej.

Picture

Seperti yang ditunjukkan dalam rajah di atas, MDT memperkenalkan strategi pembelajaran model topeng sambil mengekalkan proses latihan penyebaran. Dengan menutup token imej bising, MDT menggunakan seni bina Pengubah Resapan asimetri (Pengubah Resapan Asymmetric) untuk meramalkan token imej bertopeng daripada token imej bising yang belum bertopeng, sekali gus mencapai proses latihan pemodelan topeng dan resapan.

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

Semasa proses inferens, MDT masih mengekalkan proses penjanaan resapan piawai. Reka bentuk MDT membantu Diffusion Transformer mempunyai kedua-dua keupayaan ekspresi maklumat semantik yang dibawa oleh pembelajaran perwakilan model topeng dan keupayaan model resapan untuk menjana butiran imej.

Secara khusus, MDT memetakan imej ke ruang terpendam melalui pengekod VAE dan memprosesnya dalam ruang terpendam untuk menjimatkan kos pengkomputeran.

Semasa proses latihan, MDT mula-mula menutup sebahagian daripada token imej selepas menambah hingar, dan menghantar token yang tinggal ke Transformer Resapan Asymmetric untuk meramalkan semua token imej selepas menafikan.

Seni bina Asymmetric Diffusion Transformer

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Picture

Seperti yang ditunjukkan dalam rajah di atas, Asymmetric Diffusion epolcoder Transformer (polycoder.auxili) termasuk Asymmetric Diffusion Intercoder Transformer

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Gambar

Semasa proses latihan, Pengekod hanya memproses token yang tidak bertopeng semasa proses inferens, kerana tiada langkah topeng, ia memproses semua token.

Oleh itu, untuk memastikan penyahkod sentiasa boleh memproses semua token semasa fasa latihan atau inferens, penyelidik mencadangkan penyelesaian: semasa proses latihan, melalui interpolator tambahan yang terdiri daripada blok DiT (seperti yang ditunjukkan dalam rajah di atas ), interpolasi dan ramalkan token bertopeng daripada output pengekod, dan alih keluarnya semasa peringkat inferens tanpa menambah sebarang overhed inferens.

Pengekod dan penyahkod MDT memasukkan maklumat pengekodan kedudukan global dan tempatan ke dalam blok DiT standard untuk membantu meramalkan token di bahagian topeng.

Asymmetric Diffusion Transformer V2

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Pictures

Seperti yang ditunjukkan dalam gambar di atas, MDTv2 terus mengoptimumkan proses difducing dan diffusion yang lebih cekap proses pemodelan.

Ini termasuk menyepadukan pintasan panjang gaya U-Net dalam pengekod dan pintasan input padat dalam penyahkod.

Antaranya, pintasan input padat menghantar token bertopeng selepas menambah bunyi pada penyahkod, mengekalkan maklumat hingar yang sepadan dengan token bertopeng, sekali gus memudahkan latihan proses penyebaran.

Selain itu, MDT juga telah memperkenalkan strategi latihan yang lebih baik termasuk penggunaan pengoptimum Adan yang lebih pantas, berat kehilangan berkaitan langkah masa, dan nisbah topeng yang diperluas untuk mempercepatkan lagi proses latihan model Resapan Bertopeng. .

Jelas sekali bahawa MDT mencapai markah FID yang lebih tinggi dengan kos latihan yang lebih rendah pada semua saiz model.

Parameter dan kos inferens MDT pada asasnya adalah sama dengan DiT, kerana seperti yang dinyatakan di atas, proses resapan piawai yang konsisten dengan DiT masih dikekalkan dalam proses inferens MDT. 颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

Untuk model XL terbesar, MDTv2-XL/2, dilatih dengan 400k langkah, dengan ketara mengatasi prestasi DiT-XL/2, dilatih dengan 7000k langkah, dengan peningkatan skor FID sebanyak 1.92. Di bawah tetapan ini, keputusan menunjukkan bahawa MDT mempunyai latihan 18 kali lebih pantas daripada DiT.

Untuk model kecil, MDTv2-S/2 masih mencapai prestasi yang jauh lebih baik daripada DiT-S/2 dengan langkah latihan yang jauh lebih sedikit. Sebagai contoh, dengan latihan yang sama sebanyak 400k langkah, MDTv2 mempunyai indeks FID 39.50, yang jauh mendahului indeks FID DiT sebanyak 68.40.

Lebih penting lagi, keputusan ini juga melebihi prestasi model DiT-B/2 yang lebih besar pada 400k langkah latihan (39.50 vs 43.47).

ImageNet 256 penanda aras perbandingan kualiti penjanaan CFG

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源imej

Kami juga membandingkan prestasi penjanaan imej MDT dengan kaedah sedia ada di bawah bimbingan tanpa pengelas dalam jadual di atas.

MDT mengatasi SOTA DiT sebelumnya dan kaedah lain dengan skor FID 1.79. MDTv2 meningkatkan lagi prestasi, melonjakkan skor SOTA FID untuk penjanaan imej ke paras terendah baharu 1.58 dengan langkah latihan yang lebih sedikit.

Sama seperti DiT, kami tidak melihat ketepuan skor FID model semasa latihan semasa kami meneruskan latihan. . 256 penanda aras DiT-S/ pada GPU 2 FID prestasi garis dasar, MDT-S/2 dan MDTv2-S/2 di bawah langkah latihan/masa latihan yang berbeza.

Terima kasih kepada keupayaan pembelajaran kontekstual yang lebih baik, MDT mengatasi DiT dalam kedua-dua prestasi dan kelajuan penjanaan. Kelajuan penumpuan latihan MDTv2 adalah lebih daripada 10 kali lebih tinggi daripada DiT. 颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

MDT adalah kira-kira 3 kali lebih cepat daripada DiT dari segi langkah latihan dan masa latihan. MDTv2 meningkatkan lagi kelajuan latihan kira-kira 5 kali ganda berbanding MDT.

Sebagai contoh, MDTv2-S/2 menunjukkan prestasi yang lebih baik dalam hanya 13 jam (15k langkah) daripada DiT-S/2 yang mengambil masa kira-kira 100 jam (1500k langkah) untuk berlatih, yang mendedahkan bahawa pembelajaran perwakilan kontekstual adalah penting untuk Pembelajaran generatif model penyebaran yang lebih pantas adalah penting.

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Ringkasan & Perbincangan

MDT memperkenalkan skema pembelajaran perwakilan model topeng yang serupa dengan MAE dalam proses latihan resapan, yang boleh menggunakan maklumat kontekstual objek imej untuk membina semula maklumat lengkap imej input yang tidak lengkap, dengan itu belajar semantik dalam imej Kolerasi antara bahagian, dengan itu meningkatkan kualiti penjanaan imej dan kelajuan pembelajaran.

Penyelidik percaya bahawa meningkatkan pemahaman semantik dunia fizikal melalui pembelajaran perwakilan visual boleh meningkatkan kesan simulasi model generatif pada dunia fizikal. Ini bertepatan dengan visi Sora untuk membina simulator dunia fizikal melalui model generatif. Semoga karya ini akan memberi inspirasi kepada lebih banyak kerja untuk menyatukan pembelajaran perwakilan dan pembelajaran generatif.

Rujukan:

https://arxiv.org/abs/2303.14389

Atas ialah kandungan terperinci Karya baharu oleh Yan Shuicheng/Cheng Mingming! Latihan DiT, komponen teras Sora, dipercepatkan sebanyak 10 kali, dan Masked Diffusion Transformer V2 ialah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
win7模拟器win7模拟器Jul 22, 2023 pm 01:01 PM

win7模拟器是什么?相信很多小伙伴都没有听说过,win7模拟器其实是一款为朋友们打造的在手机上模拟使用win7系统的软件,接下来就让小编给大家带来win7模拟器介绍,相信看完你们就会对win7模拟器有更深的了解。win7系统很多的朋友在电脑上都使用过了,但是你们有在手机上使用过win7系统吗?win7模拟器就是一款为朋友们打造的在手机上模拟使用win7系统的软件,让大家可以使用本款软件在安卓手机上来使用win7系统,体验经典的win7界面,可以点击使用我的电脑、开始菜单等各种模块,可以进行各种

没等来OpenAI,等来了Open-Sora全面开源没等来OpenAI,等来了Open-Sora全面开源Mar 18, 2024 pm 08:40 PM

不久前OpenAISora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora1.0」模型生成的都市繁华掠影视频。Open-Sora1.0

加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布Jan 25, 2024 am 08:15 AM

加油站宇宙再次扩张!由Drago娱乐和心跳游戏HBG共同合作推出的《加油站大亨》再次迎来了全新的DLC《废车场》,你的商业帝国将变得更加庞大,此DLC将在第二季度正式和玩家见面,而在第一季度将会推出《踏浪而行》DLC。新的商机一个叫本杰明的家伙和他的宠物鹦鹉建立了一个废车场的生意,但现在他想要处理这桩生意,做好准备接管它们,扩大你的加油站。学会如何处理废旧汽车,卖掉车上拆下来的金属,赚取利润。保留可以在车库重复使用的零件,或者以更高的价格卖掉它们。为那些想要某些汽车的特殊客户定制汽车,你可以从你

雷电模拟器可以加速游戏吗雷电模拟器可以加速游戏吗Feb 01, 2024 pm 07:54 PM

雷电模拟器可以加速游戏吗?雷电模拟器是有脚本加速功能的,雷电模拟器加速执行是指脚本加速,包括循环脚本的间隔时间,加速执行的倍速等都可以设置,功能可以在模拟器启动时执行,也可以在指定时间后自动重启模拟器。还有很多朋友还不知道该怎么使用,快来看看吧。雷电模拟器可以加速游戏吗1、相信很多玩游戏的朋友都听说过游戏加速工具。2、不过雷电模拟器的脚本加速执行与它是完全不同的。3、这里的加速执行只是对脚本播放的加速,类似于倍速播放视频。4、举例来说,我们循环一个长达1分钟的脚本,设置循环时间1个小时。5、然后

华硕组装机怎么开vt?华硕组装机怎么开vt?Feb 02, 2024 pm 08:39 PM

华硕组装机怎么开vt?要在华硕组装机上开启VT,首先需要进入计算机的BIOS设置页面。开机时按下相应的按键(一般是Delete键或F2键),进入BIOS界面后找到Advanced或者Security选项菜单,然后找到IntelVirtualizationTechnology或者VT-x选项,将其设置为Enabled。接着保存设置并退出BIOS界面,计算机会自动重启并且VT功能就被成功开启了。需要注意的是,不同型号的华硕主板可能会有些许差异,具体的操作步骤可能会有所不同,还请根据实际情况进行操作。

雷电模拟器可以改地址吗雷电模拟器可以改地址吗Jan 30, 2024 pm 10:45 PM

雷电模拟器是一款安卓模拟器,很多玩家会使用雷电模拟器多开游戏挂机,一些游戏本地多开会有封号危险,目前使用雷电安卓模拟器不能进行手动修改地址,不过可以手动修改IMEI设备号,在中,点击属性设置,即可查看,同时点击即可修改。雷电模拟器可以改地址吗1、目前雷电模拟器不支持修改ip的操作。2、如果想要修改ip,可以使用第三方软件。3、不过雷电模拟器可以修改IMEI编码,只要点击右上角“设置”4、然后点击左边栏的“机型设置”5、进入后,在右边就可以修改“IMEI编码”了。通过修改IMEI码可以改变设备型号

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收Feb 26, 2024 am 08:01 AM

2月16日,OpenAISora的发布无疑标志着视频生成领域的一次重大突破。Sora基于DiffusionTransformer架构,和市面上大部分主流方法(由2DStableDiffusion扩展)并不相同。为什么Sora坚持使用DiffusionTransformer,其中的原因从同时期发表在ICLR2024(VDT:General-purposeVideoDiffusionTransformersviaMaskModeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加

设置Debian11的默认终端模拟器的方法设置Debian11的默认终端模拟器的方法Jan 04, 2024 pm 10:10 PM

Debian11如何设置默认终端模拟器?随小编一起看一下具体操作吧。点【所有应用程序】-【设置】-【设置管理器】。单击【默认应用程序】。切换到【实用程序】选项卡,找到【终端模拟器】选项,点下拉按钮,下拉菜单中单击要设置的默认终端即可。

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual