2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります-AI-php.cn

ホームページ

テクノロジー周辺機器

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 27, 2024 pm 03:17 PM

ai電車

戦場のワイドショット、走っているストームトルーパー...

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

プロンプト: 戦場のワイドショット、走っているストームトルーパー...

1,200 フレームを含むこの 2 分間のビデオは、テキストからビデオへのモデルによって生成されました。 AI の痕跡はまだ明らかですが、キャラクターとシーンは非常に良好な一貫性を示しています。

これはどのように行われるのでしょうか? Vincent ビデオテクノロジの生成品質とテキスト配置の品質は近年非常に優れていますが、既存のほとんどの方法は短いビデオ (通常は 16 フレームまたは 24 フレームの長さ) を生成することに焦点を当てていることを知っておく必要があります。ただし、短いビデオでは機能する既存の方法は、長いビデオ (64 フレーム以上) では機能しないことがよくあります。

短いシーケンスを生成する場合でも、260K を超えるトレーニングステップや 4500 を超えるバッチサイズなど、高価なトレーニングが必要になることがよくあります。長いビデオでトレーニングせず、短いビデオジェネレーターを使用して長いビデオを作成すると、結果として得られる長いビデオの品質が低下することがよくあります。既存の自己回帰手法（短いビデオの最後の数フレームを使用して新しい短いビデオを生成し、その後長いビデオを合成する）にも、シーンの切り替えが一貫しないなどのいくつかの問題があります。

既存の手法の欠点を補うために、Picsart AI Research と他の機関は共同で新しい Vincent ビデオ手法 StreamingT2V を提案しました。この方法では、自己回帰技術を使用し、長期短期記憶モジュールと組み合わせることで、強い時間的コヒーレンスを備えた長いビデオを生成できます。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

#論文タイトル: StreamingT2V: テキストからの一貫性、動的、拡張可能な長時間ビデオ生成
論文アドレス: https://arxiv.org/abs/2403.14773
プロジェクトアドレス: https://streamingt2v.github.io/

次は 600 フレームの 1 分間のビデオ生成結果です。ミツバチと花が優れた一貫性を持っていることがわかります:

したがって、チームは条件アテンションモジュール (CAM)。 CAM は、アテンションメカニズムを使用して、以前のフレームからの情報を効果的に統合して新しいフレームを生成し、以前のフレームの構造や形状に制限されることなく、新しいフレームの動きを自由に処理できます。

生成されたビデオ内の人物やオブジェクトの外観変更の問題を解決するために、チームは外観保存モジュール (APM) も提案しました。これは、初期画像から開始できます (アンカーフレーム) オブジェクトまたはグローバルシーンの外観情報を抽出し、この情報を使用してすべてのビデオパッチのビデオ生成プロセスを調整します。

長いビデオ生成の品質と解像度をさらに向上させるために、チームは自己回帰生成タスクのビデオ拡張モデルを改良しました。これを行うために、チームは高解像度の Vincent ビデオモデルを選択し、SDEdit メソッドを使用して 24 の連続ビデオブロック (8 つのオーバーラップフレームを含む) の品質を向上させました。

ビデオブロックのエンハンスメントの移行をスムーズにするために、重複するエンハンスドビデオブロックをシームレスにブレンドするランダムブレンディング方法も設計しました。

方法

まず、5 秒間の 256 × 256 解像度のビデオ (16fps) を生成し、それをより高い解像度 (720 × 720）。図 2 は、その完全なワークフローを示しています。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

長いビデオの生成部分は、初期化ステージとストリーミング T2V ステージで構成されます。

その中で、初期化段階では、事前トレーニングされた Vincent ビデオモデル (たとえば、Modelscope を使用できます) を使用して、最初の 16 フレームのビデオブロックを生成します。 Vincent ビデオステージは、自己回帰方式で後続のフレームの新しいコンテンツを生成します。

自己回帰プロセス (図 3 を参照) の場合、チームが新たに提案した CAM は、前のビデオブロックの最後の 8 フレームの短期情報を利用して、ブロック間のシームレスな切り替えを実現できます。。さらに、新しく提案されたAPMモジュールを使用して固定アンカーフレームの長期情報を抽出し、生成プロセス中の物事やシーンの詳細の変化に自己回帰プロセスがロバストに対応できるようにします。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

長いビデオ (80、240、600、1200 フレーム以上) を生成した後、ストリーミング調整ステージのビデオ品質を向上させます。このプロセスでは、高解像度の Vison ショートビデオモデル (MS-Vid2Vid-XL など) を自己回帰方式で使用し、シームレスなビデオブロック処理のために新しく提案された確率的混合方法と組み合わせます。さらに、後者のステップでは追加のトレーニングが必要ないため、この方法の計算コストが低くなります。

条件付き注意モジュール

まず、事前トレーニング済みテキスト (短い) を使用します。ビデオモデルは Video-LDM として表されます。アテンションモジュール (CAM) は、Video-LDM UNet に挿入される特徴エクストラクターと特徴インジェクターで構成されます。

特徴抽出器は、フレームごとの画像エンコーダーを使用し、その後、中間層まで Video-LDM UNet で使用されるのと同じエンコーダー層を使用します (UNet の重みによって初期化されます)。。

機能注入の場合、ここでの設計は、UNet の各長距離ジャンプ接続が、クロスアテンションを通じて CAM によって生成された対応する機能に焦点を当てるようにすることです。

外観保持モジュール

APM モジュールはアンカーフレーム内の情報を修正できます。を使用して長期記憶をビデオ生成プロセスに統合します。これは、ビデオパッチの生成中にシーンとオブジェクトの特性を維持するのに役立ちます。

APM がアンカーフレームとテキスト命令によって与えられるガイダンス情報の処理のバランスを取れるようにするために、チームは 2 つの改善を行いました: (1) アンカーの CLIP 画像トークンを結合するテキストを含むフレーム命令の CLIP テキストトークンが混合されます; (2) クロスアテンションを使用するために、各クロスアテンションレイヤーに重みが導入されます。

自動回帰ビデオ強化

生成された 24 フレームのビデオブロックを自己回帰的に強化するために、ここでは高解像度を使用します。 (1280x720) Vincent (ショート) ビデオモデル (Refiner Video-LDM、図 3 を参照)。この処理は、まず入力ビデオブロックに大量のノイズを追加し、次にこの Vincent ビデオ拡散モデルを使用してノイズ除去処理を実行します。

しかし、この方法はビデオブロック間のトランジションの不一致の問題を解決するには十分ではありません。

この目的を達成するために、チームのソリューションはランダムハイブリッドアプローチです。具体的な詳細については、元の論文を参照してください。

実験

実験でチームが使用した評価指標には、時間的一貫性を評価するための SCuts スコア、モーションを意識したツイストエラーが含まれます。 (MAWE) は動きとツイストエラーの量、CLIP テキストと画像の類似性スコア (CLIP) はテキストの配置品質を評価し、美的スコア (AE) を評価します。

アブレーション研究

さまざまな新しいコンポーネントの有効性を評価するために、アブレーションチームは研究は、検証セットからランダムに抽出された 75 個のプロンプトに対して実行されました。

条件付き処理用の CAM: CAM は、モデルがより一貫性のあるビデオを生成するのに役立ち、比較すると、SCuts スコアは他のベースラインモデルより 88% 低くなります。

長期記憶: 図 6 は、長期記憶が自己回帰生成プロセス中にオブジェクトやシーンの特性の安定性を維持するのに大きく役立つことを示しています。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

定量的な評価指標 (人物再識別スコア) では、APM は 20% の改善を達成しました。

ビデオ強化のためのランダムミキシング: 他の 2 つのベンチマークと比較して、ランダムミキシングは品質を大幅に向上させることができます。これは、図 4: StreamingT2V でよりスムーズなトランジションが得られることからもわかります。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

StreamingT2V とベースラインモデルの比較

##チームは、画像からビデオへの手法 I2VGen-XL、SVD、DynamiCrafter-XL、自己回帰手法を使用した SEINE、ビデオ to -ビデオメソッド SparseControl、およびテキストから長いビデオ MethodFreeNoise。

定量的評価: 表 8 からわかるように、テストセットの定量的評価は、StreamingT2V がシームレスなビデオブロックの遷移とモーションの一貫性の点で最高のパフォーマンスを発揮することを示しています。新しいメソッドの MAWE スコアも他のすべてのメソッドよりも大幅に優れており、2 番目に優れた SEINE よりも 50% 以上低いです。同様の動作が SCuts スコアでも見られます。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

さらに、StreamingT2V は、生成されるビデオの単一フレーム品質の点で SparseCtrl よりわずかに劣るだけです。これは、この新しい方法が他の比較方法よりも優れた時間的一貫性とモーションダイナミクスを備えた高品質の長時間ビデオを生成できることを示しています。

定性的評価: 次の図は、StreamingT2V と他の方式の効果を比較したもので、新しい方式の方がビデオの動的な効果を確保しながら、より高い一貫性を維持できることがわかります。。

2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

研究の詳細については、元の論文を参照してください。

以上が2 分、1200 フレームの長いビデオジェネレーターである StreamingT2V が登場し、コードはオープンソースになりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

テスラのロブバンは、2024年のロボタクシティーザーの隠された宝石でしたApr 22, 2025 am 11:48 AM

2008年以来、私は共有ライドバンを擁護しました。これは、「Robotjitney」と呼ばれる「後に「Vansit」と呼ばれ、都市交通の未来として擁護しました。私はこれらの車両を21世紀の次世代トランジットソリューション、スルパとして予見します

サムのクラブは領収書の小切手を排除し、小売を強化するためにAIに賭けますApr 22, 2025 am 11:29 AM

チェックアウトエクスペリエンスに革命をもたらす Sam's Clubの革新的な「Just Go」システムは、既存のAIを搭載した「スキャン＆ゴー」テクノロジーに基づいて構築され、ショッピング旅行中にメンバーがサムズクラブアプリを介して購入をスキャンできるようになりました。

NvidiaのAI OmniverseはGTC 2025で拡大しますApr 22, 2025 am 11:28 AM

GTC 2025でのNvidiaの強化された予測可能性と新製品のラインナップ AIインフラストラクチャの重要なプレーヤーであるNvidiaは、クライアントの予測可能性の向上に焦点を当てています。これには、一貫した製品配信、パフォーマンスの期待を満たすこと、および

Google＆＃039;のGemma 2モデルの機能を調査しますApr 22, 2025 am 11:26 AM

GoogleのGemma 2：強力で効率的な言語モデル効率とパフォーマンスで祝われるGoogleのGemmaファミリーは、Gemma 2の到着とともに拡大しました。この最新リリースは2つのモデルで構成されています。

genaiの次の波：Kirk Borne博士との展望-AnalyticsVidhyaApr 22, 2025 am 11:21 AM

データエピソードを率いるこの主要なのは、主要なデータサイエンティスト、天体物理学者、TEDXスピーカーであるカークボーン博士を特徴としています。ビッグデータ、AI、および機械学習の有名な専門家であるボルネ博士は、現在の状態と将来のトラジェについて非常に貴重な洞察を提供しています

ランナーとアスリート向けのAI：私たちは素晴らしい進歩を遂げていますApr 22, 2025 am 11:12 AM

このスピーチには、人工知能が人々の運動をサポートするのに非常に優れている理由を示すエンジニアリングに関するバックグラウンド情報には、非常に洞察に満ちた視点がいくつかありました。各寄稿者の観点からコアアイデアを概説し、スポーツにおける人工知能の適用の調査の重要な部分である3つの設計側面を実証します。エッジデバイスと生の個人データ人工知能に関するこのアイデアには、実際には2つのコンポーネントが含まれています。1つは大きな言語モデルを配置する場所に関連しており、もう1つは人間の言語と、リアルタイムで測定したときにバイタルサインが「表現」する言語の違いに関連しています。アレクサンダー・アミニはランニングとテニスについて多くのことを知っていますが、彼はまだ

Caterpillarでのテクノロジー、才能、変革に関するJamie EngstromApr 22, 2025 am 11:10 AM

Caterpillarの最高情報責任者であり、その上級副社長であるJamie Engstromは、28か国の2,200人以上のITプロフェッショナルのグローバルチームを率いています。彼女の現在の役割で4年半を含むCaterpillarで26年間、Engst

新しいGoogleフォトの更新は、ウルトラHDR品質の写真をポップにしますApr 22, 2025 am 11:09 AM

Google Photosの新しいUltra HDRツール：クイックガイド Google Photosの新しいUltra HDRツールで写真を強化し、標準画像を活気に満ちた高ダイナミックレンジの傑作に変換します。ソーシャルメディアに最適なこのツールは、あらゆる写真の影響を高め、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。