Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現-AI-php.cn

ホームページ

テクノロジー周辺機器

Transformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 am 09:25 AM

プロジェクトw.a.l.t

ビデオ生成シナリオでは、Transformer を拡散モデルのノイズ除去バックボーンとして使用することが実現可能であることが、Li Feifei などの研究者によって証明されています。これは、ビデオ生成の分野における Transformer の大きな成功と考えられます。

最近、ビデオ生成に関する研究が多くの賞賛を受け、X ネチズンによって「ハリウッドの終わり」とさえ評価されました。

本当にそれでいいのですか？まずは効果を見てみましょう:

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

これらのビデオにはアーティファクトがほとんどないだけでなく、非常に一貫性があり、詳細が満載であることは明らかです。大ヒット映画に実際に数フレームが追加されたとしても、明らかに矛盾するわけではないようにさえ思えます。

これらのビデオの作者は、スタンフォード大学、Google、ジョージア工科大学の研究者によって提案された Window Attendant Latent Transformer、つまり Window Attendant Latent Transformer です。 W.A.L.T と呼ばれます。この方法は、Transformer アーキテクチャを潜在ビデオ拡散モデルに統合することに成功しました。スタンフォード大学のリー・フェイフェイ教授も論文の著者の一人だ。

プロジェクト Web サイト: https://walt-video-diffusion.github.io/
論文アドレス: https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

これ以前、Transformer アーキテクチャは多くの異なる分野で大きな成功が収められていますが、画像とビデオの生成モデリングの分野を除いて、現在主流のパラダイムは拡散モデルです。

画像とビデオ生成の分野では、拡散モデルが主要なパラダイムとなっています。ただし、すべてのビデオ拡散方法の中で、主要なバックボーンネットワークは、一連の畳み込み層とセルフアテンション層で構成される U-Net アーキテクチャです。 Transformer のフルアテンションメカニズムのメモリ要件は入力シーケンスの長さに応じて二次関数的に増加するため、U-Net が推奨されます。ビデオなどの高次元信号を処理する場合、この成長パターンにより計算コストが非常に高くなります。

潜在拡散モデル (LDM) は、オートエンコーダーから導出された低次元の潜在空間で動作するため、計算要件が軽減されます。この場合、重要な設計上の選択は、潜在空間のタイプ、つまり空間圧縮と時空圧縮です。

空間圧縮は、大規模な画像とテキストのペアのデータセットのトレーニングを使用して実行される、事前トレーニング済みの画像オートエンコーダーと LDM の使用を可能にするため、空間圧縮を好むことがよくあります。ただし、空間圧縮を選択すると、ネットワークの複雑さが増し、特に高解像度のビデオを生成する場合、(メモリの制約により) Transformer をネットワークバックボーンとして使用することが困難になります。一方、時空間圧縮はこれらの問題を軽減できますが、ビデオテキストデータセットよりも大きくて多様になる傾向がある、画像とテキストのペアのデータセットを操作するのには適していません。

W.A.L.T は、潜在ビデオ拡散モデル (LVDM) 用の Transformer メソッドです。

#この方法は 2 つの段階で構成されます。

#最初の段階では、オートエンコーダーを使用して、ビデオと画像を統一された低次元の潜在空間にマッピングします。これにより、単一の生成モデルを画像データセットとビデオデータセットで共同トレーニングできるようになり、高解像度ビデオ生成の計算コストが大幅に削減されます。

第 2 フェーズでは、チームはセルフアテンションレイヤーで構成される潜在ビデオ拡散モデル用の新しい Transformer ブロックを設計しました。空間的および時空間的注意。この設計には 2 つの主な利点があります。 1 つ目は、ローカルウィンドウアテンションを使用するため、計算要件を大幅に削減できます。第 2 に、空間層が画像とビデオフレームを個別に処理できる一方で、時空間層はビデオの時間的関係をモデル化するために使用されるため、共同トレーニングが容易になります。

#概念的には単純ですが、この研究は、Transformer が潜在ビデオの拡散において優れた生成品質とパラメータ効率を備えていることを公開ベンチマークで実験的に実証した最初の研究です。

#最後に、新しい方法のスケーラビリティと効率を実証するために、チームは難しいフォトリアリスティックな画像からビデオへの生成タスクも実験しました。彼らは 3 つのモデルをカスケードしてトレーニングしました。これらには、基本的な潜在ビデオ拡散モデルと 2 つのビデオ超解像度拡散モデルが含まれます。その結果、解像度 512×896、毎秒 8 フレームのビデオが作成されます。このアプローチにより、UCF-101 ベンチマークで最先端のゼロショット FVD スコアが達成されます。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

さらに、このモデルは、一貫した 3D カメラの動きを持つビデオを生成するために使用できます。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

W.A.L.T

ビジュアルトークンを学ぶ

ビデオの生成モデリングの分野では、重要な設計上の決定は、潜在空間表現の選択です。理想的には、画像とビデオの両方の生成モデリングに使用できる、共有され統一された圧縮視覚表現が必要です。

具体的には、ビデオシーケンス x が与えられた場合、目標は、特定の時間的および空間的スケールで時空間圧縮を実行する低次元表現 z を学習することです。ビデオと静止画像を統一して表現するには、ビデオの最初のフレームを残りのフレームとは別にエンコードする必要があります。これにより、静止画像をビデオの 1 フレームにすぎないかのように扱うことができます。

このアイデアに基づいて、チームの実際の設計では、MAGVIT-v2 トークナイザーの因果 3D CNN エンコーダー/デコーダーアーキテクチャが使用されています。

この段階の後、モデルへの入力は、単一のビデオまたは離散画像のスタックを表す潜在テンソルのバッチになります (図 2)。そして、ここでの暗黙的な表現は実数値であり、量子化されていません。

画像とビデオの生成方法を学習します

Patchify。オリジナルの ViT デザインに従って、チームは各非表示フレームを重なり合わない一連のタイルに変換することで個別にタイル化しました。彼らはまた、空間的位置埋め込みと時間的位置埋め込みの合計である学習可能な位置埋め込みも使用しました。位置埋め込みは、タイルの線形投影に追加されます。画像の場合は、最初の隠しフレームに対応する時間的位置の埋め込みを追加するだけであることに注意してください。

#窓にご注意ください。グローバルセルフアテンションモジュールのみで構成される Transformer モデルは、特にビデオタスクの場合、計算コストとメモリコストが高くなります。画像とビデオの効率と共同処理を実現するために、チームは、空間 (S) と時空 (ST) という 2 種類の重複しない構成に基づいてウィンドウ方式で自己注意を計算しました。図 2 を参照してください。

#空間ウィンドウ (SW) の注目は、非表示のフレーム内のすべてのトークンに集中します。 SW は、画像とビデオの空間関係をモデル化します。時空間ウィンドウ (STW) アテンションの範囲は、ビデオの非表示フレーム間の時間的関係をモデル化する 3D ウィンドウです。最後に、絶対位置の埋め込みに加えて、相対位置の埋め込みも使用しました。

レポートによると、この設計はシンプルですが、計算効率が高く、画像とビデオのデータセットで共同トレーニングすることができます。フレームレベルのオートエンコーダに基づく方法とは異なり、新しい方法では、ビデオフレームを個別にエンコードおよびデコードする方法によくある問題であるちらつきアーティファクトが生成されません。

条件付き生成

制御可能なビデオ生成を実現するには、時間ステップを実行するだけでなく、条件付き拡散モデルでは、カテゴリラベル、自然言語、過去のフレーム、低解像度ビデオなどの追加の条件付き情報も使用する傾向があります。新しく提案された Transformer バックボーンネットワークでは、チームは以下に説明するように 3 種類の条件付きメカニズムを統合しました。ウィンドウ化された Transformer ブロックでセルフアテンションレイヤーを使用することに加えて、テキスト条件付き生成用のクロスアテンションレイヤーも追加しました。ビデオのみでモデルをトレーニングする場合、クロスアテンションレイヤーはセルフアテンションレイヤーと同じウィンドウ制限アテンションを使用します。これは、S/ST に SW/STW クロスアテンションレイヤーがあることを意味します (図 2)。ただし、共同トレーニングの場合は、SW クロスアテンションレイヤーのみが使用されます。クロスアテンションを実現するために、チームのアプローチは、入力信号 (クエリ) と条件付き信号 (キー、値) を連結することです。

アダルン-LoRA。適応正規化レイヤーは、多くの生成合成モデルおよびビジュアル合成モデルにおける重要なコンポーネントです。適応正規化層を組み込むための簡単なアプローチは、条件付きパラメーターのベクトルで回帰する各層 i に MLP 層を含めることです。これらの追加の MLP レイヤーのパラメーターの数は、レイヤーの数に応じて線形に、モデルの次元に応じて二次的に増加します。 LoRA に触発されて、研究者らはモデルパラメーターを削減するためのシンプルなソリューション、AdaLN-LoRA を提案しました。

セルフコンディショニング。反復生成アルゴリズムは、外部入力に条件付けされるだけでなく、推論中に生成されるサンプルにも条件付けできます。具体的には、Chen らは論文「Analog bits: Generating discrete data using diffusion models with self-conditioning」の拡散モデルのトレーニングプロセスを変更して、モデルが特定の確率 p_sc でサンプルを生成し、これに基づいてサンプルを生成するようにしました。最初のサンプルでは、別のフォワードパスを使用してこの推定値を調整します。 1-p_sc が 1 回の順方向パスのみを完了するという一定の確率もあります。チームは、このモデル推定をチャネル次元に沿った入力と連結し、この単純な手法が v 予測と組み合わせるとうまく機能することを発見しました。

#自己回帰生成

自己回帰予測を通じて長いビデオを生成するために、チームはモデルはフレーム予測タスクでも共同トレーニングされました。これは、トレーニングプロセス中に過去のフレームに条件付けされた特定の確率 p_fp をモデルに与えることで実現されます。条件は、1 つの隠しフレーム (画像からビデオへの生成) または 2 つの隠しフレーム (ビデオ予測) のいずれかです。この条件は、ノイズの多い暗黙的な入力に沿ったチャネル次元によってモデルに統合されます。推論中に、c_fp を条件信号として使用して、標準の分類子なしのブートストラップが使用されます。

ビデオ超解像度

単一のビデオを使用して高解像度ビデオを生成する計算モデルコストが非常に高く、基本的には実現が困難です。研究者らは論文「高忠実度画像生成のためのカスケード拡散モデル」を参照し、カスケード法を使用して 3 つのモデルをカスケード接続し、ますます高い解像度で動作します。

基本モデルは 128×128 の解像度でビデオを生成し、その後 2 つの超解像度ステージを通じて 2 回アップサンプリングされます。低解像度の入力 (ビデオまたは画像) は、まず深度から空間への畳み込み演算を使用して空間的にアップサンプリングされます。トレーニング (グラウンドトゥルースの低解像度入力が提供される) とは異なり、推論は前の段階で生成された暗黙的な表現に依存することに注意してください。

この差を減らし、低解像度ステージで生成されたアーティファクトに対して超解像度ステージをより堅牢にするために、チームはノイズ条件付き強調も使用しました。

アスペクト比の微調整。トレーニングを簡素化し、さまざまなアスペクト比を持つより多くのデータソースを活用するために、ベースステージでは正方形のアスペクト比を使用しました。次に、データのサブセットでモデルを微調整し、位置埋め込み補間によってアスペクト比 9:16 のビデオを生成しました。

実験

研究者らは、新しく提案された方法をさまざまなタスクで評価しました。画像とビデオの生成、フレーム予測、テキストベースのビデオ生成。彼らはまた、アブレーション研究を通じてさまざまな設計選択の影響を調査しました。

ビジュアル生成

ビデオ生成: UCF-101 と Kinetics-600 の両方各データセットにおいて、W.A.L.T は FVD インデックスの点でこれまでのすべての手法を上回っています (表 1 を参照)。

画像生成: 表 2 は、W.A.L.T の結果を、256 × 256 解像度の画像を生成するための他の現在最良の方法と比較しています。新しく提案されたモデルは以前の方法よりも優れており、特殊なスケジューリング、畳み込み誘導バイアス、改善された拡散損失、および分類器を使用しないガイダンスを必要としません。 VDM の FID スコアはわずかに高くなりますが、より多くのモデルパラメーター (2B) があります。

アブレーション研究

さまざまな設計上の決定の寄与を理解するために、チームはまた、アブレーション研究を実施しました。表 3 は、パッチサイズ、ウィンドウアテンション、セルフコンディショニング、AdaLN-LoRA、およびオートエンコーダーに関するアブレーション研究の結果を示しています。

テキストからビデオへの生成

チームはテキストからビデオへの変換に取り組んでいます。画像とテキストからビデオへの変換私たちは、W.A.L.T のテキストからビデオへの生成機能を共同でトレーニングしました。彼らは、公共のインターネットと、約 9 億 7,000 万のテキストと画像のペアと約 8,900 万のテキストとビデオのペアを含む内部ソースからのデータセットを使用しました。

基本モデル (3B) の解像度は 17×128×128、カスケードされた 2 つの超解像度モデルは 17×128×224 → 17× 256× 448 (L、1.3B、p = 2) および 17×256×448→ 17×512×896 (L、419M、p = 2)。また、ベースステージのアスペクト比を微調整して、128×224 の解像度でビデオを作成しました。すべてのテキストからビデオへの生成結果では、分類子を使用しないブートストラップアプローチが使用されます。

以下は生成されたビデオの例です。詳細については、プロジェクト Web サイトをご覧ください:

テキスト: 食べるリスハンバーガー。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

テキスト: 砂漠をゴーストライダーバイクに乗った猫。

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

定量的評価

標準化されたトレーニングデータセットとベンチマークが不足していることもあり、テキストベースのビデオ生成を科学的な方法で評価することは依然として課題です。これまでのところ、研究者らの実験と分析は、公平な比較を確保するために同じトレーニングデータを使用する標準的な学術ベンチマークに焦点を当ててきました。

それでも、以前のテキストからビデオへの生成研究と比較するために、チームはゼロサンプル評価設定での UCF-101 データセットに関する結果を報告しています。

W.A.L.T の利点は明らかであることがわかります。

詳細については、元の論文を参照してください。

以上がTransformer を拡散モデルに使用し、AI 生成ビデオでフォトリアリズムを実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、