ホームページ >テクノロジー周辺機器 >AI >中国の新しいAIビデオスター:Step-Video-T2V
中国は生成AIで急速に前進しており、言語モデルのDeepseekモデルやKimi K1.5などの成功に基づいています。現在、オムニフマンと悟空が3Dモデリングとビデオ統合に優れていることでビジョンドメインをリードしています。 Step-Video-T2Vにより、中国はSORA、VEO 2、StepFun AIによって開発された映画将軍のようなトップテキストからビデオへのトップからビデオへのモデルに直接挑戦します。Step-Video-T2Vは、高品質の204フレームビデオを生成する30Bパラメーターモデルです。ビデオVAE、バイリンガルエンコーダー、3DアテンションDITを活用して、新しいビデオ生成標準を設定します。テキストからビデオへの核となる課題に対処していますか?飛び込みましょう。
Step-Video-T2Vは、いくつかのイノベーション:でこれらの課題に取り組んでいます
HUNYUAN-CLIP:テキストと画像の間のセマンティックアライメント
:の両方で複雑な指示を理解することに特化した大規模な言語モデル。
これらのエンコーダーは以前のモデルよりも低い計算コスト 3。 3D完全な注意を払った拡散トランス(DIT)
ステップビデオ-T2Vのコアは、3D完全な注意を払った
ditのith blockは、ビデオ生成プロセスを改善する複数のコンポーネントで構成されています。 各トランスブロックの重要なコンポーネント
5。最終出力(高品質の204フレームビデオ)
主要なモデルと比較して、モーションダイナミクスとリアリズムで最新のパフォーマンスを提供します。
全体的なビデオ品質と滑らかさでhunyuanvideoを上回る
ライバルムービーGen Videoしかし、高品質のラベル付きデータが限られているため、きめ細かい審美性に遅れをとっています。
審美的な魅力 - ビデオの芸術的で視覚的な品質を判断します。
プロンプトを追加して、素晴らしいビデオの生成を開始します!
によって作成されたvidoesの例
このツールによって生成されたビデオを次に示します。私は彼らの公式サイトからこれらを取りました。 プロンプト:“パリの路上で、ヴァンゴッホはカフェの外に座って、描画板を手にした夜のシーンを描いています。カメラはミディアムショットで撮影され、彼の集中的な表情と動きの速いブラシを示しています。背景にある街灯と歩行者は、浅い深さの深さを使用して彼のイメージを強調するために、わずかにぼやけています。時間が経つにつれて、空は夕暮れから夜に変わり、星は徐々に現れます。カメラはゆっくりと引き離して、彼の完成した作品と実際の夜のシーンの比較を確認します。
“広大な宇宙では、スターウォーズのミレニアムファルコンが星を越えて移動しています。カメラは、宇宙船が遠い景色を眺めながら星の間を飛んでいることを示しています。カメラはすぐに宇宙船の軌跡をたどり、高速シャトルを示します。コックピットに入ると、このカメラは、楽器を神経質に操作しているハンソロとチューバッカの表情に焦点を当てています。ダッシュボードのライトはちらつき、背景の星空はすぐにポートホールの外を通り過ぎます。
結論
128-promptベンチマークで評価されます
スポーツ、食事、風景、シュールレアリズム、人、アニメーション動きの一貫性を叩きますが、映画の魅力ではわずかに遅れます。
物理的妥当性
- 動きが物理学の法則に従うかどうかを評価します。
Step-Video-T2Vは、動きの滑らかさと身体的妥当性で競合他社を常に上回り、最も高度なオープンソースモデルの1つになります。
ステップ3:
step-video-t2vパリのゴッホ
以上が中国の新しいAIビデオスター:Step-Video-T2Vの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。