ホームページ >テクノロジー周辺機器 >AI >誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?
2024 年の初めに、OpenAI は生成 AI の分野で大ヒット作「Sora」をリリースしました。
近年、ビデオ生成分野における技術の進歩は加速し続けており、多くのテクノロジー企業も関連する技術の進歩と導入結果を発表しています。これに先立って、Pika と Runway も同様の製品を発売していましたが、Sora がリリースしたデモは明らかに単独でビデオ生成分野の基準を引き上げました。
今後の競争において、どの企業がSoraを超える製品を最初に生み出すかはまだ未知数です。
国内では、多くの大手テクノロジー企業に注目が集まっています。
以前、Bytedance が Sora のリリース前に Boximator と呼ばれるビデオ生成モデルを開発していたと報告されました。
Boximator は、ビデオ内のオブジェクトの生成を正確に制御する方法を提供します。ユーザーは複雑なテキスト命令を記述する必要はなく、図に示すように、参照イメージ内にボックスを描画してターゲットを選択し、追加のボックスと線を追加してターゲットの終了位置またはクロスフレーム モーション パス全体を定義するだけです。次の図:
ByteDance はこれに対して控えめな態度を維持しており、関係者は Boximator が技術的手法を研究するための彼らのプロジェクトであるとメディアに答えたビデオ生成の分野でオブジェクトの動きを制御するために使用されます。まだ完全には完成しておらず、画質、忠実度、ビデオ再生時間の点で、主要な海外ビデオ生成モデルとの間には依然として大きなギャップがあります。
関連する技術文書 (https://arxiv.org/abs/2402.01566) には、Boximator がプラグインとして実行され、既存のビデオ生成と簡単に統合できることが記載されています。モデルを統合します。モーション コントロール機能を追加することで、ビデオ品質を維持するだけでなく、柔軟性と使いやすさも向上します。
ビデオ生成には複数の細分化されたテクノロジが含まれており、画像/ビデオの理解、画像生成、超解像度などのテクノロジと密接に関連しています。詳細な調査の結果、ByteDance が複数の部門でいくつかの研究結果を公表していることが判明しました。
この記事では、ByteDance のインテリジェント創造チームによる 9 件の研究を紹介します。これには、Wensheng Picture、Wensheng Video、Tusheng Video、Video Understanding などの多くの最新成果が含まれています。これらの研究から視覚生成モデルを探索する技術の進歩を追跡することもできます。
今年 1 月初旬、ByteDance はビデオ生成モデル MagicVideo-V2 をリリースし、かつてコミュニティで激しい議論を巻き起こしました。
MagicVideo-V2 のイノベーションは、テキストから画像へのモデル、ビデオ モーション ジェネレーターです。 、参考画像埋め込みモジュールとフレーム補間モジュールは、エンドツーエンドのビデオ生成パイプラインに統合されています。このアーキテクチャ設計のおかげで、MagicVideo-V2 は、美しい高解像度のビデオを生成するだけでなく、忠実度や滑らかさも比較的良好で、「美観」の面で安定した高レベルのパフォーマンスを維持することができます。
具体的には、研究者らはまず T2I モジュールを使用して、説明されたシーンをカプセル化する 1024 x 1024 の画像を作成しました。次に、I2V モジュールはこの静止画像をアニメーション化して 600×600×32 の一連のフレームを生成します。このとき、基礎となるノイズによって初期フレームからの連続性が保証されます。 V2V モジュールは、ビデオ コンテンツを調整しながら、これらのフレームを 1048 × 1048 の解像度に拡張します。最後に、補間モジュールはシーケンスを 94 フレームに拡張し、解像度 1048 x 1048 のビデオを生成します。生成されたビデオは、高い美的品質と時間的な滑らかさを備えています。
研究者が実施した大規模なユーザー評価により、MagicVideo-V2 がいくつかのよく知られた T2V 方式 (グリーン、グレー、ピンク) よりも好まれることが証明されました。バーは、MagicVideo-V2 がそれぞれ良い、普通、または悪いと評価されていることを表します)。
MagicVideo-V2 の論文から、ビデオ生成テクノロジーの進歩は、Vincent Picture や Picture Video などの AIGC テクノロジーの道を切り開くことと切り離せないことがわかります。審美性の高いコンテンツを生成するための基礎は、理解、特に視覚と言語のモダリティを学習および統合するモデルの能力の向上にあります。
近年、大規模な言語モデルの拡張性と一般的な機能により、視覚と言語学習を統合する研究パラダイムが生まれています。 「視覚」と「言語」という 2 つのモダリティ間の自然なギャップを埋めるために、研究者は、事前にトレーニングされた大規模な言語モデルと視覚モデルの表現を接続し、クロスモーダル特徴を抽出し、視覚的な質問応答などのタスクを完了します。画像のキャプション、視覚的な知識の推論、対話などのタスク。
これらの方向で、ByteDance も関連する調査を行っています。
たとえば、オープンワールド ビジョン タスクにおける多目的推論とセグメンテーションの課題に対処するために、ByteDance は北京交通大学および北京科学技術大学の研究者と協力して、 PixelLM. と呼ばれる効率的な大規模ピクセルレベルの推論モデルを提案し、それをオープンソースにします。
PixelLM のコアは、新しいピクセル デコーダとセグメンテーション コードブックです。コードブックには、さまざまなコードをエンコードする学習可能なトークンが含まれています。視覚的なスケール ターゲットは、関連するものを参照します。コンテキストと知識、およびピクセル デコーダーは、コードブック トークンと画像特徴の隠された埋め込みに基づいてターゲット マスクを生成します。 PixelLM は、LMM の基本構造を維持しながら、高価なビジュアル セグメンテーション モデルを追加することなく高品質のマスクを生成できるため、効率とさまざまなアプリケーションへの移行性が向上します。
研究者らが包括的な多目的推論セグメンテーション データ セット MUSE を構築したことは注目に値します。彼らは、LVIS データセットの画像コンテンツに基づいて合計 910,000 の高品質インスタンス セグメンテーション マスクと詳細なテキスト説明を選択し、これらを使用して 246,000 の質問と回答のペアを構築しました。
画像と比較して、ビデオ コンテンツが関係する場合、モデルが直面する課題は大幅に増加します。なぜなら、映像には豊富で多様な視覚情報が含まれているだけでなく、時系列のダイナミックな変化も含まれているからです。
既存の大規模なマルチモーダル モデルがビデオ コンテンツを処理する場合、通常、ビデオ フレームを一連のビジュアル トークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されるテキストの長さが長くなると、ビデオコンテンツの影響が徐々に弱まり、生成されるテキストが元のビデオコンテンツからどんどん乖離し、いわゆる「錯覚」が生じます。
この問題に直面して、バイトダンスと浙江大学は、ビデオ コンテンツの複雑さに特化して設計されたマルチモーダル大規模モデルである Vista-LLaMA を提案しました。
Vista-LLaMA は、ビジュアル等距離トークン アテンション (EDVT) という改良されたアテンション メカニズムを採用し、ビジュアル トークンやテキスト トークンを処理する際に従来のアテンション メカニズムを削除します。テキスト間の相対位置エンコーディングを保持します。この方法により、言語モデルによるビデオ コンテンツの理解の深さと正確さが大幅に向上します。
特に、Vista-LLaMA によって導入されたシリアル化ビジュアル プロジェクターは、ビデオの時系列分析問題に新しい視点を提供します。これは、線形投影レイヤーを通じてビジュアル トークンの時間的コンテキストをエンコードします。これにより、ビデオ内の動的な変化を理解するモデルの能力が強化されます。
ICLR 2024 に最近承認された研究では、ByteDance の研究者は、ビデオ コンテンツ学習能力の事前トレーニング方法の強化モデルも調査しました。
ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんどの視覚言語基本モデルは事前トレーニングに画像テキストデータセットを採用し、主に視覚的意味表現モデリングに焦点を当てています。時間的な意味表現と相関は無視されます。
この問題を解決するために、彼らは、事前トレーニングされた視覚言語ベースモデルを連結したサンプルである COSA を提案しました。
画像から動画へ
画像とテキストのペアの大規模なデータセットに対する厳密なトレーニングを通じて、拡散モデルは完全にテキスト情報に基づいて詳細な画像を生成できます。画像生成に加えて、拡散モデルは音声生成、時系列生成、3D 点群生成などにも使用できます。
たとえば、一部の短いビデオ アプリケーションでは、ユーザーは写真を提供するだけで偽のアクション ビデオを生成できます。
何百年もの間、神秘的な微笑みを保ち続けるモナリザは、すぐに走ることができます:
この興味深いアプリケーションの背後にあるテクノロジーは、シンガポール国立大学とバイトダンスの研究者が共同で立ち上げた「MagicAnimate」です。
MagicAnimate は、拡散ベースの人体イメージ アニメーション フレームワークで、アニメーション全体の時間的一貫性を確実に確保し、特定のモーション シーケンスに基づいてビデオを生成するタスクにおけるアニメーションの忠実度を向上させることができます。さらに、MagicAnimate プロジェクトはオープンソースです。
MagicAnimate はビデオ全体を重複するセグメントに分割し、重複するフレームの予測を単純に平均します。最後に、研究者らは、参照画像の保持能力と単一フレームの忠実性をさらに強化するために、画像とビデオの共同トレーニング戦略も導入しました。 MagicAnimate は実際の人間のデータのみでトレーニングされていますが、目に見えないドメイン データのアニメーション、テキストと画像の拡散モデルとの統合、複数人のアニメーションなど、さまざまなアプリケーション シナリオに一般化できる能力を実証しています。
拡散モデルのアイデアに基づいた別の研究「DREAM-Talk」は、単一の言葉から話す感情的な言葉を生成するという問題を解決します。ポートレート画像顔タスク。
「DREAM-Talk」は、拡散ベースのオーディオ ドライバー フレームワークで、2 つの段階に分かれています。まず、研究者らは、オーディオと音声に基づいて使用できる新しい拡散モジュール EmoDiff を提案しました。参照 感情スタイルは、さまざまな非常にダイナミックな感情表現と頭のポーズを生成します。唇の動きと音声の間には強い相関関係があることを考慮して、研究者らは音声機能と感情的なスタイルを使用してダイナミクスを改善し、唇の同期精度を向上させました。また、ビデオ間レンダリング モジュールを導入して、あらゆるポートレートに表情と唇の動きを転送することを実現しました。
エフェクトの観点から見ると、DREAM-Talk は表現力、リップシンクの精度、知覚品質の点で確かに優れています:
しかし、画像生成であろうとビデオ生成であろうと、普及モデルルートに基づく現在の研究には、解決する必要のある基本的な課題がまだいくつかあります。
たとえば、多くの人が生成されたコンテンツ (SAG、DREAM-Talk に相当) の品質を懸念していますが、これは拡散モデルの生成プロセスのいくつかのステップに関連している可能性があります。 、ガイド付きサンプリングなど。
拡散モデルにおけるガイド付きサンプリングは、トレーニングを必要とするものとトレーニングを必要としないものの 2 つのカテゴリに大別できます。トレーニング不要のガイド付きサンプリングでは、既製の事前トレーニング済みネットワーク (美的評価モデルなど) を利用して生成プロセスをガイドし、より少ないステップでより高い精度で事前トレーニング済みモデルから知識を取得することを目指しています。現在のトレーニングなしのガイドなしサンプリング アルゴリズムは、クリーンな画像の 1 ステップ推定に基づいて、ガイド エネルギー関数を取得します。ただし、事前トレーニングされたネットワークはクリーンな画像でトレーニングされているため、クリーンな画像の 1 ステップ推定プロセスは不正確になる可能性があり、特に拡散モデルの初期段階では、初期のタイム ステップで不正確なガイダンスが発生する可能性があります。
この問題に対応して、ByteDance とシンガポール国立大学の研究者は共同で Symplectic Adjoint Guide (SAG) を提案しました。
ICLR 2024 に最近選ばれた論文は、「拡散確率モデルの勾配逆伝播の臨界感度法」に焦点を当てています。
この論文では、研究者によって提案された AdjointDPM は、まず、対応する確率フロー ODE を解くことによって拡散モデルから新しいサンプルを生成します。次に、別の拡張 ODE を解くことにより、隣接感度法を使用してモデル パラメーター (調整信号、ネットワークの重み、初期ノイズを含む) の損失の勾配が逆伝播されます。順方向生成と勾配逆伝播中の数値誤差を減らすために、研究者らは確率的フロー ODE と拡張 ODE を指数積分を使用して単純な非剛体 ODE にさらに再パラメータ化しました。
研究者らは、AdjointDPM が 3 つのタスクにおいて非常に価値があると指摘しました。視覚効果を認識されたテキスト埋め込みに変換すること、特定の種類の様式化に対する拡散確率モデルを微調整すること、および初期ノイズを最適化することです。セキュリティ監査用の敵対的サンプルを生成して、最適化作業のコストを削減します。
視覚認識タスクでは、テキストから画像への拡散モデルを特徴抽出器として使用する方法もますます注目を集めています。この方向に向けて、ByteDance の研究者は論文の中でシンプルで効果的なソリューションを提案しました。
論文のタイトル; メタ プロンプトを使用した視覚認識のための拡散モデルの利用
「中国版ソラ」誕生まで、あとどれだけある?
しかし、Sora と比較すると、ByteDance であれ、AI ビデオ生成分野の多くのスター企業であれ、目に見えるギャップがあります。 Sora の利点は、スケーリング則への信念と画期的な技術革新に基づいており、パッチによるビデオ データの統合、Difffusion Transformer などの技術アーキテクチャと DALL・E 3 の意味理解機能に依存しており、まさに「はるか先」を実現しています。
2022 年の文生図の爆発から 2024 年のソラの出現に至るまで、人工知能分野における技術の反復の速度は誰もが想像を超えています。 2024年には、この分野でさらに「注目の製品」が出てくると思います。
Byte は明らかに、テクノロジーの研究開発への投資も強化しています。最近、Google VideoPoet プロジェクト リーダーの Jiang Lu 氏と、オープンソース マルチモーダル大規模モデル LLaVA チームのメンバーで元 Microsoft Research 主任研究員の Chunyuan Li 氏が ByteDance インテリジェント創造チームに加わったことが明らかになりました。チームは採用活動も精力的に行っており、公式ウェブサイトには大規模モデルアルゴリズムに関連する求人が多数掲載されている。
Byte だけでなく、BAT などの古い巨人も多くの目を引くビデオ生成研究結果を発表しており、多くの大手モデルのスタートアップはさらに積極的です。 Vincent ビデオ テクノロジーではどのような新たな進歩が起こるのでしょうか?見てみましょう。
以上が誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。