ホームページ >テクノロジー周辺機器 >AI >時間と空間を制御可能なビデオ生成が現実となり、アリババの新しい大規模モデルVideoComposerが人気に
AI絵画の分野では、アリババが提案したComposerとスタンフォードが提案した安定拡散に基づくControlNetが、制御可能な画像生成の理論開発を主導してきました。ただし、制御可能なビデオ生成に関する業界の探求はまだ比較的空白です。
画像生成と比較して、制御可能なビデオは、ビデオコンテンツの空間の制御性に加えて、時間次元の制御性も満たす必要があるため、より複雑です。これに基づいて、アリババとアントグループの研究チームが率先して試みを行い、複合生成パラダイムによって時間と空間の両方の次元でのビデオ制御性を同時に実現するVideoComposerを提案しました。
少し前に、Alibaba Wensheng ビデオ モデルは控えめで、Moda コミュニティと Hugging Face でオープンソース化されていました。予想外に国内外の開発者から幅広い注目を集めました。モデルによって生成されたビデオには、マスク氏自身からも返答がありました。このモデルは注文を受けましたModa コミュニティでは何日も続けてアクセスされ、1 日に数万人の海外からのアクセスがありました。
##Text-to-Video on Twitter
VideoComposer 研究チームの最新の成果として、再び国際的な注目を集めています。コミュニティに焦点を当てます。
#Twitter の VideoComposer
実際、制御性はビジュアル コンテンツ作成のより高い基準となり、カスタマイズされた画像生成においては大きな進歩を遂げていますが、ビデオ生成の分野にはまだ 3 つの問題があります。大きな課題: 実験結果によると、VideoComposer は、単一の写真や手描きの絵などから特定のビデオを生成するなど、ビデオの時間と空間のパターンを柔軟に制御でき、さらには簡単に使用することもできます。シンプルな手書きの指示で、ターゲットの移動スタイルを制御します。この調査では、9 つの異なる古典的なタスクで VideoComposer のパフォーマンスを直接テストし、すべて満足のいく結果を達成し、VideoComposer の多用途性を証明しました。
#図 (a ~ c) VideoComposer は、テキスト、空間的および時間的条件、またはそのサブセットを満たすビデオを生成できます。 (d) VideoComposer は、期待される動きモード (赤いストローク) と形状モード (白いストローク) を満たしながら、ゴッホのスタイルを満たすビデオを生成するために 2 つのストロークのみを使用できます。 #メソッドの紹介 ビデオ LDM ## 隠れた空間。 ビデオ LDM は、まず、入力ビデオ を潜在空間式にマッピングするための事前トレーニングされたエンコーダーを導入します。ここで、 にマッピングします。 VideoComposer では、パラメータは に設定されます。 #拡散モデル。 実際のビデオ コンテンツの配信について学ぶには
, 拡散モデルは、正規分布ノイズから徐々にノイズを除去して実際の視覚コンテンツを復元することを学習します。このプロセスは、実際には、長さ T=1000 の可逆マルコフ連鎖をシミュレートしています。潜在空間で可逆プロセスを実行するために、Video LDM は
空間ローカル誘導バイアスの使用とノイズ除去のためのシーケンス時間誘導バイアスの使用を完全に調査するために、VideoComposer は 時間畳み込み演算子とクロス アテンション メカニズムの両方を使用して、3D UNet としてインスタンス化されます。
##VideoComposer
組み合わせ条件。 VideoComposer は、ビデオを 3 つの異なるタイプの条件 (テキスト条件、空間条件、クリティカル タイミング条件) に分解します。これらの条件が組み合わさって、ビデオ内の空間的および時間的パターンを決定します。 VideoComposer は、一般的な構成可能なビデオ生成フレームワークであるため、以下にリストされているものに限定されず、ダウンストリーム アプリケーションに基づいて、よりカスタマイズされた条件を VideoComposer に組み込むことができます。
# 時空間条件付きエンコーダー。 シーケンス条件には豊富で複雑な時空間依存関係が含まれており、制御可能な命令に大きな課題をもたらします。入力条件の時間的認識を強化するために、この研究では、時空間関係を組み込む時空間条件エンコーダー (STC エンコーダー) を設計しました。具体的には、2 つの 2D 畳み込みと avgPooling を含む軽量の空間構造が最初に適用されてローカル空間情報が抽出され、その結果の条件シーケンスが時間モデリングのために時間 Transformer レイヤーに入力されます。このようにして、STC エンコーダは時間的キューの明示的な埋め込みを容易にし、多様な入力に対する条件付き埋め込みのための統合されたエントリを提供することで、フレーム間の一貫性を強化できます。さらに、この研究では、単一の画像と単一のスケッチの空間条件を時間次元で繰り返して、時間条件との一貫性を確保し、条件埋め込みプロセスを容易にしました。
条件が STC エンコーダーを通じて処理された後、最終的な条件シーケンスは STC エンコーダーと同じ空間形状を持ち、要素ごとの加算によって融合されます。最後に、マージされた条件付きシーケンスは、制御信号としてチャネル次元に沿って連結されます。テキストとスタイルの条件については、クロスアテンション メカニズムを利用してテキストとスタイルのガイダンスを挿入します。
#トレーニングと推論
2 段階のトレーニング戦略。 VideoComposer は画像 LDM の事前トレーニングを通じて初期化でき、トレーニングの難易度をある程度軽減できますが、モデルが時間的なダイナミクスを認識する能力を持つことは困難です。複数の条件を同時に生成できるため、組み合わせたビデオ生成のトレーニングの難易度が高くなります。したがって、この研究では 2 段階の最適化戦略を採用しました。第 1 段階では、最初に T2V トレーニングを通じてモデルにタイミング モデリング機能が装備され、第 2 段階では、組み合わせトレーニングを通じて VideoComposer が最適化され、パフォーマンスが向上しました。
推論。 推論プロセス中、推論効率を向上させるために DDIM が使用されます。また、分類子を使用しないガイダンスを採用して、生成された結果が指定された条件を確実に満たすようにします。生成プロセスは次のように形式化できます:
ここで、ω は誘導率、c1 と c2 は 2 つの条件セットです。この誘導メカニズムは 2 つの条件のセットによって判断され、強度制御を通じてモデルをより柔軟に制御できます。
実験結果実験的調査では、研究では、VideoComposer がユニバーサル生成フレームワークを備えた統合モデルとして機能することを実証し、9 つの古典的なタスクに対する VideoComposer の機能を検証しました。 。
この研究結果の一部は、静止画像からビデオの生成 (図 4)、ビデオの修復 (図 5)、静的なスケッチのビデオから生成 (図 6) です。 、手描きのモーション コントロール ビデオ (図 8) とモーション転送 (図 A12) は両方とも、制御可能なビデオ生成の利点を反映できます。
##チーム紹介公開情報によると、アリババのビジュアルベーシックモデルの研究は、主に大規模な視覚表現モデル、ビジュアル生成大規模モデル、およびその下流アプリケーションの研究に焦点を当てていることが示されています。関連分野で 60 を超える CCF-A 論文を発表し、制御可能な画像生成手法である Composer、画像およびテキストの事前トレーニング手法である RA-CLIP および RLEG、切り取られていない長いビデオセルフなど、複数の業界コンテストで 10 を超える国際チャンピオンシップで優勝しました。 -教師あり学習 HiCo/HiCo、話し顔生成法 LipFormer などはすべてこのチームによるものです。
以上が時間と空間を制御可能なビデオ生成が現実となり、アリババの新しい大規模モデルVideoComposerが人気にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。