過去 2 年間で、LAION-5B のような大規模なグラフィックおよびテキスト データセットの公開により、画像生成の分野では安定拡散などの驚くべき効果をもたらす一連の手法が登場しました。 、DALL-E 2、ControlNet、および Composer 。これらの方法の出現により、画像生成の分野に大きな進歩と進歩がもたらされました。画像生成の分野は、過去 2 年間で急速に発展しました。
しかし、ビデオ生成は依然として大きな課題に直面しています。まず、画像生成と比較して、ビデオ生成では高次元のデータを処理する必要があり、追加の時間次元を考慮する必要があるため、タイミング モデリングの問題が生じます。時間ダイナミクスの学習を推進するには、より多くのビデオとテキストのペアのデータが必要です。ただし、ビデオの正確な時間的アノテーションは非常に高価であり、ビデオ テキスト データセットのサイズが制限されます。現在、既存の WebVid10M ビデオ データセットには 1,070 万のビデオとテキストのペアしか含まれておらず、LAION-5B 画像データセットと比較すると、データ サイズが大きく異なります。これにより、ビデオ生成モデルの大規模な拡張の可能性が大幅に制限されます。
上記の問題を解決するために、華中科技大学、アリババ グループ、浙江大学、アント グループの共同研究チームは最近、TF-T2V ビデオ ソリューションをリリースしました。
##プロジェクトのホームページ: https://tf-t2v.github.io/
ソースコードは間もなくリリースされます: https://github.com/ali-vilab /i2vgen-xl (VGen プロジェクト) 。
このソリューションは、異なるアプローチを採用し、リッチ モーション ダイナミクスを学習できる、大規模なテキストなしの注釈付きビデオ データに基づくビデオ生成を提案します。
# まずは TF-T2V のビデオ生成効果を見てみましょう:
文生ビデオ タスク
プロンプトワード: 雪に覆われた土地に生息する大きな霜のような生き物のビデオを生成します。
プロンプトワード: 漫画のミツバチのアニメーションビデオを生成します。
プロンプト ワード: 未来的なファンタジー バイクを含むビデオを生成します。
プロンプトワード: 幸せそうに笑っている小さな男の子のビデオを生成します。
プロンプトワード: 頭痛を感じている老人のビデオを生成します。
#結合ビデオ生成タスク
指定されたテキストと深度マップまたはテキストTF-T2V は、制御可能なビデオ生成を実行できます:
高解像度ビデオ合成も実行できます:
##
半教師あり設定
半教師あり設定の TF-T2V メソッドは、動きの記述に準拠したビデオを生成することもできます。 「人々は右から左へ走る」などのテキスト。
メソッドの紹介
中心となるアイデアTF-T2V モデルは動作ブランチと外観ブランチに分かれており、動作ブランチは運動ダイナミクスのモデル化に使用され、外観ブランチは視覚的な外観情報の学習に使用されます。これら 2 つのブランチは共同でトレーニングされ、最終的にテキスト駆動のビデオ生成を実現できます。
生成されたビデオの時間的一貫性を向上させるために、著者チームは、ビデオ フレーム間の連続性を明示的に学習するための時間的一貫性の損失も提案しました。
TF-T2V は、Vincent ビデオ タスクだけでなく、結合されたビデオ生成タスクにも適した一般的なフレームワークであることは言及する価値があります。 、スケッチからビデオへの変換、ビデオ修復、最初のフレームからビデオへの変換など。
具体的な詳細とさらなる実験結果については、元の論文またはプロジェクトのホームページを参照してください。
さらに、著者チームは TF-T2V を教師モデルとして使用し、一貫した蒸留技術を使用して VideoLCM モデルを取得しました。
論文アドレス: https://arxiv.org/abs/2312.09109
プロジェクトのホームページ: https://tf-t2v.github.io/
ソース コードは間もなくリリースされます: https://github.com/ali-vilab/i2vgen-xl (VGen プロジェクト)。
約 50 ステップの DDIM ノイズ除去を必要とする以前のビデオ生成手法とは異なり、TF-T2V に基づく VideoLCM 手法は、わずか約 4 ステップの推論ノイズ除去で忠実度の高いビデオを生成できます。ビデオ生成の効率が大幅に向上します。
#VideoLCM の 4 ステップのノイズ除去推論の結果を見てみましょう:
つまり、TF-T2V ソリューションはビデオ生成の分野に新しいアイデアをもたらし、データ セットのサイズとラベル付けの難しさによって引き起こされる課題を克服します。 TF-T2V は、大規模なテキストフリーの注釈ビデオ データを活用して高品質のビデオを生成でき、さまざまなビデオ生成タスクに適用されます。このイノベーションはビデオ生成技術の開発を促進し、より幅広い応用シナリオとビジネスチャンスをあらゆる階層にもたらします。
以上がHuake、Aliなどが共同開発したTF-T2V技術でAI動画制作コストを削減!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1
使いやすく無料のコードエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ホットトピック



