検索
ホームページテクノロジー周辺機器AIヤン・シュイチェン/チェン・ミンミンの新作! Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです

Sora の魅力的なコア テクノロジーの 1 つとして、DiT は拡散トランスフォーマーを利用して生成モデルを大規模に拡張し、優れた画像生成効果を実現します。

ただし、モデルのサイズが大きくなると、トレーニングのコストが急増します。

南開大学Sea AI LabのYan Shuicheng氏とCheng Mingming氏の研究チーム、およびKunlun Wanwei 2050 Research Instituteは、ICCV 2023カンファレンスでマスク拡散トランスと呼ばれる新しいモデルを提案しました。このモデルは、マスク モデリング技術を使用して、意味表現情報を学習することで拡散トランスフォーマーのトレーニングを高速化し、画像生成分野で SoTA 効果を実現します。このイノベーションは、画像生成モデルの開発に新たなブレークスルーをもたらし、研究者により効率的なトレーニング方法を提供します。研究チームは、さまざまな分野の専門知識とテクノロジーを組み合わせることで、トレーニング速度を向上させ、生成結果を向上させるソリューションを提案することに成功しました。彼らの研究は、人工知能分野の発展に重要な革新的なアイデアに貢献し、将来の研究と実践に有益なインスピレーションを提供しました

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源写真

論文アドレス: https://arxiv.org/abs/2303.14389

GitHub アドレス: https://github.com/sail-sg/MDT

##最近、Masked Diffusion Transformer V2 が再び SoTA を更新し、DiT と比較してトレーニング速度が 10 倍以上向上し、ImageNet ベンチマークで 1.58 の FID スコアを達成しました。

論文とコードの最新バージョンはオープンソースです。

背景

DiT に代表される拡散モデルは画像生成の分野で大きな成功を収めてきましたが、研究者らは、拡散モデルは多くの場合、画像内のオブジェクトの部分間の意味的関係を効率的に学習することは困難であり、この制限がトレーニング プロセスの収束効率の低下につながります。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

たとえば、上の図に示すように、DiT は 50k 番目で学習しました。トレーニング ステップ 犬の髪のテクスチャを生成し、200k トレーニング ステップで犬の目と口の 1 つを生成する方法を学習しますが、もう 1 つの目は見逃します。

300k のトレーニング ステップでも、DiT によって生成された犬の 2 つの耳の相対位置はあまり正確ではありません。

このトレーニングと学習のプロセスにより、拡散モデルは画像内のオブジェクトのさまざまな部分間の意味的関係を効率的に学習できず、各オブジェクトの意味的情報を個別に学習するだけであることがわかります。 。

研究者らは、この現象の理由は、拡散モデルが各ピクセルの予測損失を最小限に抑えることによって実際の画像データの分布を学習するためであると推測しています。このプロセスでは、さまざまなピクセル間の関係が無視されます。画像内のオブジェクトの各部分間の意味的な相対関係により、モデルの収束速度が遅くなります。

方法: マスクされた拡散トランスフォーマー

上記の観察に触発されて、研究者らは、トレーニングを改善するためにマスクされた拡散トランス (MDT) を提案しました。拡散モデルの効率とビルド品質。

MDT は、拡散トランスフォーマーの文脈的意味情報の学習能力を明示的に強化し、画像内のオブジェクト間の関係を強化する意味情報の連想学習を目的として、拡散トランスフォーマー用に設計されたマスク モデリング表現学習戦略を提案します。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源写真

上図に示すように、MDT は拡散トレーニングを維持しながらマスク モデリングを導入します。学習戦略のプロセス。ノイズを含む画像トークンをマスクすることで、MDT は非対称拡散変換器 (非対称拡散変換器) アーキテクチャを使用して、マスクされていないノイズを含む画像トークンからマスクされた画像トークンを予測し、それによってマスク モデリングと拡散トレーニング プロセスを同時に実現します。

推論プロセス中、MDT は標準の拡散生成プロセスを維持します。 MDT の設計により、Difffusion Transformer は、マスク モデリング表現の学習によってもたらされる意味情報表現能力と、画像の詳細を生成する拡散モデルの能力の両方を得ることができます。

具体的には、MDT は VAE エンコーダーを通じて画像を潜在空間にマッピングし、それらを潜在空間で処理してコンピューティング コストを節約します。

トレーニング プロセス中、MDT はまずノイズが追加された画像トークンの一部をマスクし、残りのトークンを非対称拡散変換器に送信して、ノイズ除去後のすべての画像トークンを予測します。

#非対称拡散トランス アーキテクチャ

##写真颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

として上の図に示されているように、非対称拡散トランスのアーキテクチャには、エンコーダ、サイド補間器 (補助補間器)、およびデコーダが含まれています。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

トレーニング プロセス中、Encoder はマスクされていないトークンのみを処理します。推論では、マスク ステップがないため、すべてのトークンが処理されます。

したがって、デコーダーがトレーニングまたは推論フェーズ中に常にすべてのトークンを処理できるようにするために、研究者らは解決策を提案しました。トレーニング プロセス中に、以下で構成される DiT ブロックを使用するというものです。補助補間器 (上の図に示す) は、エンコーダーの出力からマスクされたトークンを補間および予測し、推論のオーバーヘッドを追加することなく推論段階でそれを削除します。

MDT のエンコーダとデコーダは、グローバルおよびローカル位置エンコード情報を標準 DiT ブロックに挿入して、マスク部分のトークンの予測を支援します。

#非対称拡散トランス V2

##写真

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源 として上の図に示すように、MDTv2 は、マスク拡散プロセス用に設計されたより効率的なマクロ ネットワーク構造を導入することにより、拡散とマスク モデリングの学習プロセスをさらに最適化します。

これには、エンコーダでの U-Net スタイルのロング ショートカットとデコーダでの高密度入力ショートカットの統合が含まれます。

このうち、dense input-shortcut は、マスクされたトークンにノイズを追加してデコーダーに送信し、マスクされたトークンに対応するノイズ情報を保持するため、拡散のトレーニングが容易になります。プロセス。 。

さらに、MDT は、より高速な Adan オプティマイザー、タイムステップ関連の損失重み、拡散モデルのマスクされたトレーニング プロセスをさらに加速する拡張マスク比など、より優れたトレーニング戦略も導入しました。 。

#実験結果

ImageNet 256 ベンチマーク生成の品質比較

Image

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源 #上の表は、ImageNet 256 ベンチマークにおけるさまざまなモデル サイズでの MDT と DiT のパフォーマンスを比較しています。

MDT は、すべてのモデル サイズにおいて、より少ないトレーニング コストでより高い FID スコアを達成することは明らかです。

MDT のパラメータと推論コストは基本的に DiT と同じです。これは、前述したように、MDT の推論プロセス中に DiT と一致する標準の拡散プロセスが維持されるためです。

最大の XL モデルの場合、400k ステップでトレーニングされた MDTv2-XL/2 は、7000k ステップでトレーニングされた DiT-XL/2 を大幅に上回り、FID スコアは 1.92 向上しました。この設定では、MDT が DiT よりも約 18 倍高速にトレーニングできることが結果からわかります。

小規模モデルの場合、MDTv2-S/2 は、大幅に少ないトレーニング ステップで、DiT-S/2 よりも大幅に優れたパフォーマンスを実現します。たとえば、400k ステップの同じトレーニングでは、MDTv2 の FID インデックスは 39.50 で、これは DiT の FID インデックス 68.40 を大幅に上回っています。

さらに重要なのは、この結果は、400k トレーニング ステップでのより大きなモデル DiT-B/2 のパフォーマンスも上回っていることです (39.50 対 43.47)。

ImageNet 256 ベンチマーク CFG 生成の品質比較

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源Image

我々はまだ上の表は、分類子を使用しないガイダンスの下で、MDT と既存の方法の画像生成パフォーマンスを比較しています。

MDT は、FID スコア 1.79 で、以前の SOTA DiT や他の手法を上回ります。 MDTv2 はパフォーマンスをさらに向上させ、少ないトレーニング ステップで画像生成の SOTA FID スコアを新たな最低値の 1.58 に押し上げます。

DiT と同様に、トレーニングを継続しても、トレーニング中にモデルの FID スコアの飽和は観察されませんでした。

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源#MDT が PaperWithCode のリーダーボードで SoTA を更新

収束速度の比較

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

上の図は、ImageNet 256 ベンチマークにおける 8×A100 GPU 上の DiT-S/2 ベースライン、MDT-S/2、および MDTv2 を比較しています。 . - 異なるトレーニング ステップ/トレーニング時間における S/2 の FID パフォーマンス。

MDT は、より優れたコンテキスト学習機能のおかげで、パフォーマンスと生成速度の両方で DiT を上回っています。 MDTv2 のトレーニング収束速度は、DiT の 10 倍以上です。

MDT は、トレーニング ステップとトレーニング時間の点で DiT よりも約 3 倍高速です。 MDTv2 は、MDT と比較してトレーニング速度をさらに約 5 倍向上させます。

たとえば、MDTv2-S/2 は、トレーニングに約 100 時間 (1500k ステップ) かかる DiT-S/2 よりも、わずか 13 時間 (15k ステップ) で優れたパフォーマンスを示します。は、コンテキスト表現の学習が拡散モデルの生成学習を高速化するために重要であることを明らかにしています。

要約と考察

MDT は、拡散学習に MAE と同様のマスク モデリング表現学習スキームを導入することで、画像オブジェクトの特性を利用できます。コンテキスト情報は、不完全な入力画像の完全な情報を再構築することで、画像内の意味部分間の相関関係を学習し、画像生成の品質と学習速度を向上させます。

研究者らは、視覚表現学習を通じて物理世界の意味的理解を強化することで、物理世界に対する生成モデルのシミュレーション効果を向上できると考えています。これは、生成モデルを通じて物理世界シミュレーターを構築するという Sora のビジョンと一致します。この研究が、表現学習と生成学習の統合に関するさらなる研究のきっかけとなることを願っています。

参考:

https://arxiv.org/abs/2303.14389

以上がヤン・シュイチェン/チェン・ミンミンの新作! Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
win7模拟器win7模拟器Jul 22, 2023 pm 01:01 PM

win7模拟器是什么?相信很多小伙伴都没有听说过,win7模拟器其实是一款为朋友们打造的在手机上模拟使用win7系统的软件,接下来就让小编给大家带来win7模拟器介绍,相信看完你们就会对win7模拟器有更深的了解。win7系统很多的朋友在电脑上都使用过了,但是你们有在手机上使用过win7系统吗?win7模拟器就是一款为朋友们打造的在手机上模拟使用win7系统的软件,让大家可以使用本款软件在安卓手机上来使用win7系统,体验经典的win7界面,可以点击使用我的电脑、开始菜单等各种模块,可以进行各种

没等来OpenAI,等来了Open-Sora全面开源没等来OpenAI,等来了Open-Sora全面开源Mar 18, 2024 pm 08:40 PM

不久前OpenAISora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora1.0」模型生成的都市繁华掠影视频。Open-Sora1.0

加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布加油站宇宙再扩张!《加油站大亨》新DLC《废车场》正式公布Jan 25, 2024 am 08:15 AM

加油站宇宙再次扩张!由Drago娱乐和心跳游戏HBG共同合作推出的《加油站大亨》再次迎来了全新的DLC《废车场》,你的商业帝国将变得更加庞大,此DLC将在第二季度正式和玩家见面,而在第一季度将会推出《踏浪而行》DLC。新的商机一个叫本杰明的家伙和他的宠物鹦鹉建立了一个废车场的生意,但现在他想要处理这桩生意,做好准备接管它们,扩大你的加油站。学会如何处理废旧汽车,卖掉车上拆下来的金属,赚取利润。保留可以在车库重复使用的零件,或者以更高的价格卖掉它们。为那些想要某些汽车的特殊客户定制汽车,你可以从你

雷电模拟器可以加速游戏吗雷电模拟器可以加速游戏吗Feb 01, 2024 pm 07:54 PM

雷电模拟器可以加速游戏吗?雷电模拟器是有脚本加速功能的,雷电模拟器加速执行是指脚本加速,包括循环脚本的间隔时间,加速执行的倍速等都可以设置,功能可以在模拟器启动时执行,也可以在指定时间后自动重启模拟器。还有很多朋友还不知道该怎么使用,快来看看吧。雷电模拟器可以加速游戏吗1、相信很多玩游戏的朋友都听说过游戏加速工具。2、不过雷电模拟器的脚本加速执行与它是完全不同的。3、这里的加速执行只是对脚本播放的加速,类似于倍速播放视频。4、举例来说,我们循环一个长达1分钟的脚本,设置循环时间1个小时。5、然后

华硕组装机怎么开vt?华硕组装机怎么开vt?Feb 02, 2024 pm 08:39 PM

华硕组装机怎么开vt?要在华硕组装机上开启VT,首先需要进入计算机的BIOS设置页面。开机时按下相应的按键(一般是Delete键或F2键),进入BIOS界面后找到Advanced或者Security选项菜单,然后找到IntelVirtualizationTechnology或者VT-x选项,将其设置为Enabled。接着保存设置并退出BIOS界面,计算机会自动重启并且VT功能就被成功开启了。需要注意的是,不同型号的华硕主板可能会有些许差异,具体的操作步骤可能会有所不同,还请根据实际情况进行操作。

设置Debian11的默认终端模拟器的方法设置Debian11的默认终端模拟器的方法Jan 04, 2024 pm 10:10 PM

Debian11如何设置默认终端模拟器?随小编一起看一下具体操作吧。点【所有应用程序】-【设置】-【设置管理器】。单击【默认应用程序】。切换到【实用程序】选项卡,找到【终端模拟器】选项,点下拉按钮,下拉菜单中单击要设置的默认终端即可。

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收Feb 26, 2024 am 08:01 AM

2月16日,OpenAISora的发布无疑标志着视频生成领域的一次重大突破。Sora基于DiffusionTransformer架构,和市面上大部分主流方法(由2DStableDiffusion扩展)并不相同。为什么Sora坚持使用DiffusionTransformer,其中的原因从同时期发表在ICLR2024(VDT:General-purposeVideoDiffusionTransformersviaMaskModeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加

Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决Feb 27, 2024 pm 11:50 PM

这一周,OpenAI视频AI工具Sora一出现,可谓是炸翻了天。「饭碗保不住了」的恐惧,真实地击中了许多人。图片不过,亚马逊的一位工程师CameronGould则认为,其实并不必对AI如此惧怕,它并不会导致我们失去工作。为什么?原因如下。Prompt的自相矛盾首先,生成式AI应用在创意内容时,生成的一般是图像、视频以及一般的非虚构内容。提供一个生成式AI模型prompt,就像在应对一个顽皮的孩子,他的独特技能是通过“以一种面向字面的方式解释你的话语”来制造混乱。使用准确的词语至关重要,因为即使是

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません