ホームページ > 記事 > テクノロジー周辺機器 > Huake、Aliなどが共同開発したTF-T2V技術でAI動画制作コストを削減!
過去 2 年間で、LAION-5B のような大規模なグラフィックおよびテキスト データセットの公開により、画像生成の分野では安定拡散などの驚くべき効果をもたらす一連の手法が登場しました。 、DALL-E 2、ControlNet、および Composer 。これらの方法の出現により、画像生成の分野に大きな進歩と進歩がもたらされました。画像生成の分野は、過去 2 年間で急速に発展しました。
しかし、ビデオ生成は依然として大きな課題に直面しています。まず、画像生成と比較して、ビデオ生成では高次元のデータを処理する必要があり、追加の時間次元を考慮する必要があるため、タイミング モデリングの問題が生じます。時間ダイナミクスの学習を推進するには、より多くのビデオとテキストのペアのデータが必要です。ただし、ビデオの正確な時間的アノテーションは非常に高価であり、ビデオ テキスト データセットのサイズが制限されます。現在、既存の WebVid10M ビデオ データセットには 1,070 万のビデオとテキストのペアしか含まれておらず、LAION-5B 画像データセットと比較すると、データ サイズが大きく異なります。これにより、ビデオ生成モデルの大規模な拡張の可能性が大幅に制限されます。
上記の問題を解決するために、華中科技大学、アリババ グループ、浙江大学、アント グループの共同研究チームは最近、TF-T2V ビデオ ソリューションをリリースしました。
##プロジェクトのホームページ: https://tf-t2v.github.io/
ソースコードは間もなくリリースされます: https://github.com/ali-vilab /i2vgen-xl (VGen プロジェクト) 。
このソリューションは、異なるアプローチを採用し、リッチ モーション ダイナミクスを学習できる、大規模なテキストなしの注釈付きビデオ データに基づくビデオ生成を提案します。
# まずは TF-T2V のビデオ生成効果を見てみましょう:
文生ビデオ タスク
プロンプトワード: 雪に覆われた土地に生息する大きな霜のような生き物のビデオを生成します。
プロンプトワード: 漫画のミツバチのアニメーションビデオを生成します。
プロンプト ワード: 未来的なファンタジー バイクを含むビデオを生成します。
プロンプトワード: 幸せそうに笑っている小さな男の子のビデオを生成します。
プロンプトワード: 頭痛を感じている老人のビデオを生成します。
#結合ビデオ生成タスク
指定されたテキストと深度マップまたはテキストTF-T2V は、制御可能なビデオ生成を実行できます:
高解像度ビデオ合成も実行できます:
##
半教師あり設定
半教師あり設定の TF-T2V メソッドは、動きの記述に準拠したビデオを生成することもできます。 「人々は右から左へ走る」などのテキスト。
中心となるアイデアTF-T2V モデルは動作ブランチと外観ブランチに分かれており、動作ブランチは運動ダイナミクスのモデル化に使用され、外観ブランチは視覚的な外観情報の学習に使用されます。これら 2 つのブランチは共同でトレーニングされ、最終的にテキスト駆動のビデオ生成を実現できます。
生成されたビデオの時間的一貫性を向上させるために、著者チームは、ビデオ フレーム間の連続性を明示的に学習するための時間的一貫性の損失も提案しました。
TF-T2V は、Vincent ビデオ タスクだけでなく、結合されたビデオ生成タスクにも適した一般的なフレームワークであることは言及する価値があります。 、スケッチからビデオへの変換、ビデオ修復、最初のフレームからビデオへの変換など。
具体的な詳細とさらなる実験結果については、元の論文またはプロジェクトのホームページを参照してください。
さらに、著者チームは TF-T2V を教師モデルとして使用し、一貫した蒸留技術を使用して VideoLCM モデルを取得しました。
論文アドレス: https://arxiv.org/abs/2312.09109
プロジェクトのホームページ: https://tf-t2v.github.io/
ソース コードは間もなくリリースされます: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト)。
約 50 ステップの DDIM ノイズ除去を必要とする以前のビデオ生成手法とは異なり、TF-T2V に基づく VideoLCM 手法は、わずか約 4 ステップの推論ノイズ除去で忠実度の高いビデオを生成できます。ビデオ生成の効率が大幅に向上します。
#VideoLCM の 4 ステップのノイズ除去推論の結果を見てみましょう:
##具体的な詳細とさらなる実験結果については、元の VideoLCM 論文またはプロジェクトのホームページを参照してください。
つまり、TF-T2V ソリューションはビデオ生成の分野に新しいアイデアをもたらし、データ セットのサイズとラベル付けの難しさによって引き起こされる課題を克服します。 TF-T2V は、大規模なテキストフリーの注釈ビデオ データを活用して高品質のビデオを生成でき、さまざまなビデオ生成タスクに適用されます。このイノベーションはビデオ生成技術の開発を促進し、より幅広い応用シナリオとビジネスチャンスをあらゆる階層にもたらします。
以上がHuake、Aliなどが共同開発したTF-T2V技術でAI動画制作コストを削減!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。