ホームページ  >  記事  >  テクノロジー周辺機器  >  誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

WBOY
WBOY転載
2024-03-12 22:55:02997ブラウズ

2024 年の初めに、OpenAI は生成 AI の分野で大ヒット作「Sora」をリリースしました。

近年、ビデオ生成分野における技術の進歩は加速し続けており、多くのテクノロジー企業も関連する技術の進歩と導入結果を発表しています。これに先立って、Pika と Runway も同様の製品を発売していましたが、Sora がリリースしたデモは明らかに単独でビデオ生成分野の基準を引き上げました。

今後の競争において、どの企業がSoraを超える製品を最初に生み出すかはまだ未知数です。

国内では、多くの大手テクノロジー企業に注目が集まっています。

以前、Bytedance が Sora のリリース前に Boximator と呼ばれるビデオ生成モデルを開発していたと報告されました。

Boximator は、ビデオ内のオブジェクトの生成を正確に制御する方法を提供します。ユーザーは複雑なテキスト命令を記述する必要はなく、図に示すように、参照イメージ内にボックスを描画してターゲットを選択し、追加のボックスと線を追加してターゲットの終了位置またはクロスフレーム モーション パス全体を定義するだけです。次の図:

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

ByteDance はこれに対して控えめな態度を維持しており、関係者は Boximator が技術的手法を研究するための彼らのプロジェクトであるとメディアに答えたビデオ生成の分野でオブジェクトの動きを制御するために使用されます。まだ完全には完成しておらず、画質、忠実度、ビデオ再生時間の点で、主要な海外ビデオ生成モデルとの間には依然として大きなギャップがあります。

関連する技術文書 (https://arxiv.org/abs/2402.01566) には、Boximator がプラグインとして実行され、既存のビデオ生成と簡単に統合できることが記載されています。モデルを統合します。モーション コントロール機能を追加することで、ビデオ品質を維持するだけでなく、柔軟性と使いやすさも向上します。

ビデオ生成には複数の細分化されたテクノロジが含まれており、画像/ビデオの理解、画像生成、超解像度などのテクノロジと密接に関連しています。詳細な調査の結果、ByteDance が複数の部門でいくつかの研究結果を公表していることが判明しました。

この記事では、ByteDance のインテリジェント創造チームによる 9 件の研究を紹介します。これには、Wensheng Picture、Wensheng Video、Tusheng Video、Video Understanding などの多くの最新成果が含まれています。これらの研究から視覚生成モデルを探索する技術の進歩を追跡することもできます。

ビデオ生成に関して、Byte にはどのような実績がありますか?

今年 1 月初旬、ByteDance はビデオ生成モデル MagicVideo-V2 をリリースし、かつてコミュニティで激しい議論を巻き起こしました。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?


  • #論文タイトル: MagicVideo-V2: マルチステージの高美性ビデオ世代
  • 論文リンク: https://arxiv.org/abs/2401.04468
  • #プロジェクトアドレス: https://magicvideov2.github.io/

MagicVideo-V2 のイノベーションは、テキストから画像へのモデル、ビデオ モーション ジェネレーターです。 、参考画像埋め込みモジュールとフレーム補間モジュールは、エンドツーエンドのビデオ生成パイプラインに統合されています。このアーキテクチャ設計のおかげで、MagicVideo-V2 は、美しい高解像度のビデオを生成するだけでなく、忠実度や滑らかさも比較的良好で、「美観」の面で安定した高レベルのパフォーマンスを維持することができます。

具体的には、研究者らはまず T2I モジュールを使用して、説明されたシーンをカプセル化する 1024 x 1024 の画像を作成しました。次に、I2V モジュールはこの静止画像をアニメーション化して 600×600×32 の一連のフレームを生成します。このとき、基礎となるノイズによって初期フレームからの連続性が保証されます。 V2V モジュールは、ビデオ コンテンツを調整しながら、これらのフレームを 1048 × 1048 の解像度に拡張します。最後に、補間モジュールはシーケンスを 94 フレームに拡張し、解像度 1048 x 1048 のビデオを生成します。生成されたビデオは、高い美的品質と時間的な滑らかさを備えています。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

研究者が実施した大規模なユーザー評価により、MagicVideo-V2 がいくつかのよく知られた T2V 方式 (グリーン、グレー、ピンク) よりも好まれることが証明されました。バーは、MagicVideo-V2 がそれぞれ良い、普通、または悪いと評価されていることを表します)。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

高品質ビデオ生成の裏側

視覚学習と言語学習を統合する研究パラダイム

MagicVideo-V2 の論文から、ビデオ生成テクノロジーの進歩は、Vincent Picture や Picture Video などの AIGC テクノロジーの道を切り開くことと切り離せないことがわかります。審美性の高いコンテンツを生成するための基礎は、理解、特に視覚と言語のモダリティを学習および統合するモデルの能力の向上にあります。

近年、大規模な言語モデルの拡張性と一般的な機能により、視覚と言語学習を統合する研究パラダイムが生まれています。 「視覚」と「言語」という 2 つのモダリティ間の自然なギャップを埋めるために、研究者は、事前にトレーニングされた大規模な言語モデルと視覚モデルの表現を接続し、クロスモーダル特徴を抽出し、視覚的な質問応答などのタスクを完了します。画像のキャプション、視覚的な知識の推論、対話などのタスク。

これらの方向で、ByteDance も関連する調査を行っています。

たとえば、オープンワールド ビジョン タスクにおける多目的推論とセグメンテーションの課題に対処するために、ByteDance は北京交通大学および北京科学技術大学の研究者と協力して、 PixelLM. と呼ばれる効率的な大規模ピクセルレベルの推論モデルを提案し、それをオープンソースにします。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?


  • 論文タイトル: PixelLM: 大規模マルチモーダル モデルを使用したピクセル推論
  • #論文リンク: https://arxiv.org/pdf/2312.02228.pdf
  • プロジェクト アドレス: https://pixellm.github.io/
PixelLM は、任意の数のオープンセット目標とさまざまな推論の複雑さを持つタスクを巧みに処理できます。以下の図は、それを示していますさまざまなセグメンテーション タスクで高品質のオブジェクト マスクを生成する PixelLM の機能。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

PixelLM のコアは、新しいピクセル デコーダとセグメンテーション コードブックです。コードブックには、さまざまなコードをエンコードする学習可能なトークンが含まれています。視覚的なスケール ターゲットは、関連するものを参照します。コンテキストと知識、およびピクセル デコーダーは、コードブック トークンと画像特徴の隠された埋め込みに基づいてターゲット マスクを生成します。 PixelLM は、LMM の基本構造を維持しながら、高価なビジュアル セグメンテーション モデルを追加することなく高品質のマスクを生成できるため、効率とさまざまなアプリケーションへの移行性が向上します。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

研究者らが包括的な多目的推論セグメンテーション データ セット MUSE を構築したことは注目に値します。彼らは、LVIS データセットの画像コンテンツに基づいて合計 910,000 の高品質インスタンス セグメンテーション マスクと詳細なテキスト説明を選択し、これらを使用して 246,000 の質問と回答のペアを構築しました。

画像と比較して、ビデオ コンテンツが関係する場合、モデルが直面する課題は大幅に増加します。なぜなら、映像には豊富で多様な視覚情報が含まれているだけでなく、時系列のダイナミックな変化も含まれているからです。

既存の大規模なマルチモーダル モデルがビデオ コンテンツを処理する場合、通常、ビデオ フレームを一連のビジュアル トークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されるテキストの長さが長くなると、ビデオコンテンツの影響が徐々に弱まり、生成されるテキストが元のビデオコンテンツからどんどん乖離し、いわゆる「錯覚」が生じます。

この問題に直面して、バイトダンスと浙江大学は、ビデオ コンテンツの複雑さに特化して設計されたマルチモーダル大規模モデルである Vista-LLaMA を提案しました。

  • 論文タイトル: Vista-LLaMA: ビジュアル トークンまでの等距離による信頼性の高いビデオ ナレーター
  • 論文リンク: https ://arxiv.org/pdf/2312.08870.pdf
  • プロジェクトアドレス: https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA は、ビジュアル等距離トークン アテンション (EDVT) という改良されたアテンション メカニズムを採用し、ビジュアル トークンやテキスト トークンを処理する際に従来のアテンション メカニズムを削除します。テキスト間の相対位置エンコーディングを保持します。この方法により、言語モデルによるビデオ コンテンツの理解の深さと正確さが大幅に向上します。

特に、Vista-LLaMA によって導入されたシリアル化ビジュアル プロジェクターは、ビデオの時系列分析問題に新しい視点を提供します。これは、線形投影レイヤーを通じてビジュアル トークンの時間的コンテキストをエンコードします。これにより、ビデオ内の動的な変化を理解するモデルの能力が強化されます。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

ICLR 2024 に最近承認された研究では、ByteDance の研究者は、ビデオ コンテンツ学習能力の事前トレーニング方法の強化モデルも調査しました。

ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんどの視覚言語基本モデルは事前トレーニングに画像テキストデータセットを採用し、主に視覚的意味表現モデリングに焦点を当てています。時間的な意味表現と相関は無視されます。

この問題を解決するために、彼らは、事前トレーニングされた視覚言語ベースモデルを連結したサンプルである COSA を提案しました。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?


  • 論文タイトル: COSA: 連結サンプルの事前トレーニング済み視覚言語基盤モデル
  • #論文リンク: https://arxiv.org/pdf/2306.09085.pdf
  • # #プロジェクトのホームページ: https://github.com/TXH-mercury/COSA
  • ##COSA は、視覚的なコンテンツとイベント レベルの一時的な手がかりに画像テキスト コーパスのみを使用します。関節モデリング。研究者らは、事前トレーニングのための入力として、複数の画像とテキストのペアを順番に連結しました。この変換により、既存の画像テキスト コーパスが擬似長編ビデオ段落コーパスに効果的に変換され、より豊かなシーン遷移とイベント説明の明示的な対応が可能になります。実験では、COSA が、長い/短いビデオ テキスト タスクや、検索、字幕、質問応答などの画像テキスト タスクを含む、さまざまな下流タスクのパフォーマンスを一貫して向上させることができることを示しています。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

画像から動画へ誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

再認識される"拡散モデル"

視覚言語モデルに加えて、拡散モデルもほとんどのビデオ生成モデルで使用されるテクノロジです。

画像とテキストのペアの大規模なデータセットに対する厳密なトレーニングを通じて、拡散モデルは完全にテキスト情報に基づいて詳細な画像を生成できます。画像生成に加えて、拡散モデルは音声生成、時系列生成、3D 点群生成などにも使用できます。

たとえば、一部の短いビデオ アプリケーションでは、ユーザーは写真を提供するだけで偽のアクション ビデオを生成できます。

何百年もの間、神秘的な微笑みを保ち続けるモナリザは、すぐに走ることができます:

この興味深いアプリケーションの背後にあるテクノロジーは、シンガポール国立大学とバイトダンスの研究者が共同で立ち上げた「MagicAnimate」です。 誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

MagicAnimate は、拡散ベースの人体イメージ アニメーション フレームワークで、アニメーション全体の時間的一貫性を確実に確保し、特定のモーション シーケンスに基づいてビデオを生成するタスクにおけるアニメーションの忠実度を向上させることができます。さらに、MagicAnimate プロジェクトはオープンソースです。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

  • 論文タイトル: MagicAnimate: 拡散モデルを使用した時間的に一貫した人間のイメージ アニメーション
  • ##論文リンク: https://arxiv.org/pdf/2311.16498.pdf
  • プロジェクト アドレス: https://showlab 。 github.io/magicanimate/
生成されたアニメーションの一般的な「ちらつき」問題を解決するために、研究者たちは時間的注意 (時間的注意) ブロックを時間モデリングのためのビデオ拡散モデルを構築するための拡散バックボーン ネットワーク。

MagicAnimate はビデオ全体を重複するセグメントに分割し、重複するフレームの予測を単純に平均します。最後に、研究者らは、参照画像の保持能力と単一フレームの忠実性をさらに強化するために、画像とビデオの共同トレーニング戦略も導入しました。 MagicAnimate は実際の人間のデータのみでトレーニングされていますが、目に見えないドメイン データのアニメーション、テキストと画像の拡散モデルとの統合、複数人のアニメーションなど、さまざまなアプリケーション シナリオに一般化できる能力を実証しています。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

拡散モデルのアイデアに基づいた別の研究「DREAM-Talk」は、単一の言葉から話す感情的な言葉を生成するという問題を解決します。ポートレート画像顔タスク。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?


    論文タイトル: DREAM-Talk: 拡散ベースのリアルで感情的な音声主導型単一画像の話す顔の生成方法
  • #論文リンク: https://arxiv.org/pdf/2312.13578.pdf
  • プロジェクトアドレス: https://dreamtalkemo.github.io/
  • このタスクが難しいことはわかっています。感情豊かな対話と正確なリップシンクを同時に実現するために、通常、リップシンクの精度を確保するために、表現力が大幅に犠牲になることがよくあります。

「DREAM-Talk」は、拡散ベースのオーディオ ドライバー フレームワークで、2 つの段階に分かれています。まず、研究者らは、オーディオと音声に基づいて使用できる新しい拡散モジュール EmoDiff を提案しました。参照 感情スタイルは、さまざまな非常にダイナミックな感情表現と頭のポーズを生成します。唇の動きと音声の間には強い相関関係があることを考慮して、研究者らは音声機能と感情的なスタイルを使用してダイナミクスを改善し、唇の同期精度を向上させました。また、ビデオ間レンダリング モジュールを導入して、あらゆるポートレートに表情と唇の動きを転送することを実現しました。

エフェクトの観点から見ると、DREAM-Talk は表現力、リップシンクの精度、知覚品質の点で確かに優れています:

しかし、画像生成であろうとビデオ生成であろうと、普及モデルルートに基づく現在の研究には、解決する必要のある基本的な課題がまだいくつかあります。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

たとえば、多くの人が生成されたコンテンツ (SAG、DREAM-Talk に相当) の品質を懸念していますが、これは拡散モデルの生成プロセスのいくつかのステップに関連している可能性があります。 、ガイド付きサンプリングなど。

拡散モデルにおけるガイド付きサンプリングは、トレーニングを必要とするものとトレーニングを必要としないものの 2 つのカテゴリに大別できます。トレーニング不要のガイド付きサンプリングでは、既製の事前トレーニング済みネットワーク (美的評価モデルなど) を利用して生成プロセスをガイドし、より少ないステップでより高い精度で事前トレーニング済みモデルから知識を取得することを目指しています。現在のトレーニングなしのガイドなしサンプリング アルゴリズムは、クリーンな画像の 1 ステップ推定に基づいて、ガイド エネルギー関数を取得します。ただし、事前トレーニングされたネットワークはクリーンな画像でトレーニングされているため、クリーンな画像の 1 ステップ推定プロセスは不正確になる可能性があり、特に拡散モデルの初期段階では、初期のタイム ステップで不正確なガイダンスが発生する可能性があります。

この問題に対応して、ByteDance とシンガポール国立大学の研究者は共同で Symplectic Adjoint Guide (SAG) を提案しました。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?

  • 論文タイトル: シンプレクティック随伴法による正確なガイド付き拡散サンプリングに向けて
  • 論文リンク: https://arxiv.org/pdf/2312.12030.pdf
#SAG は 2 つの内部ステージを通じて勾配ガイダンスを計算します。 SAG は、n 回の関数呼び出しを通じてクリーンな画像を推定します。ここで、n は、特定の画質要件に従って調整できる柔軟なパラメーターとして機能します。第 2 に、SAG は対称双対法を使用して、メモリ要件に関する勾配を正確かつ効率的に取得します。このアプローチは、スタイルに基づいた画像生成、美的改善、ビデオのスタイル化などのさまざまな画像およびビデオ生成タスクをサポートし、生​​成されるコンテンツの品質を効果的に向上させることができます。

ICLR 2024 に最近選ばれた論文は、「拡散確率モデルの勾配逆伝播の臨界感度法」に焦点を当てています。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?


    論文タイトル: 拡散確率モデルの勾配逆伝播のための随伴感度法
  • 論文リンク: https://arxiv.org/pdf/2307.10711.pdf
  • # #拡散確率モデルのサンプリング プロセスにはノイズ除去 U-Net への再帰呼び出しが含まれるため、単純勾配バックプロパゲーションではすべての反復の中間状態を保存する必要があり、その結果、メモリ消費量が非常に多くなります。

この論文では、研究者によって提案された AdjointDPM は、まず、対応する確率フロー ODE を解くことによって拡散モデルから新しいサンプルを生成します。次に、別の拡張 ODE を解くことにより、隣接感度法を使用してモデル パラメーター (調整信号、ネットワークの重み、初期ノイズを含む) の損失の勾配が逆伝播されます。順方向生成と勾配逆伝播中の数値誤差を減らすために、研究者らは確率的フロー ODE と拡張 ODE を指数積分を使用して単純な非剛体 ODE にさらに再パラメータ化しました。

研究者らは、AdjointDPM が 3 つのタスクにおいて非常に価値があると指摘しました。視覚効果を認識されたテキスト埋め込みに変換すること、特定の種類の様式化に対する拡散確率モデルを微調整すること、および初期ノイズを最適化することです。セキュリティ監査用の敵対的サンプルを生成して、最適化作業のコストを削減します。

視覚認識タスクでは、テキストから画像への拡散モデルを特徴抽出器として使用する方法もますます注目を集めています。この方向に向けて、ByteDance の研究者は論文の中でシンプルで効果的なソリューションを提案しました。

誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?論文のタイトル; メタ プロンプトを使用した視覚認識のための拡散モデルの利用

  • #論文リンク: https://arxiv.org/pdf/2312.14733.pdf
  • この論文の中核となるイノベーションは、学習可能な埋め込み (メタキュー) がトレーニングされた拡散モデルに導入され、追加のマルチモーダル モデルに依存して画像キャプションを生成したり、データセットのクラス ラベルを使用したりすることなく、知覚特徴を抽出します。
メタキューには 2 つの目的があります: 1 つ目は、T2I モデルのテキスト埋め込みの直接の置き換えとして、特徴抽出中にタスク関連の機能をアクティブ化できます。2 つ目は、次の目的で使用されます。抽出された特徴を再配置して、当面のタスクに最も関連する特徴にモデルが焦点を当てられるようにします。さらに、研究者らは、拡散モデルの特性を最大限に活用して、より強力な視覚的特徴を取得するための循環リファインメント トレーニング戦略も設計しました。

「中国版ソラ」誕生まで、あとどれだけある?

これらの新しい論文では、ByteDance などの国内テクノロジー企業によるビデオ生成テクノロジーの一連の積極的な研究について学びました。

しかし、Sora と比較すると、ByteDance であれ、AI ビデオ生成分野の多くのスター企業であれ、目に見えるギャップがあります。 Sora の利点は、スケーリング則への信念と画期的な技術革新に基づいており、パッチによるビデオ データの統合、Difffusion Transformer などの技術アーキテクチャと DALL・E 3 の意味理解機能に依存しており、まさに「はるか先」を実現しています。

2022 年の文生図の爆発から 2024 年のソラの出現に至るまで、人工知能分野における技術の反復の速度は誰もが想像を超えています。 2024年には、この分野でさらに「注目の製品」が出てくると思います。

Byte は明らかに、テクノロジーの研究開発への投資も強化しています。最近、Google VideoPoet プロジェクト リーダーの Jiang Lu 氏と、オープンソース マルチモーダル大規模モデル LLaVA チームのメンバーで元 Microsoft Research 主任研究員の Chunyuan Li 氏が ByteDance インテリジェント創造チームに加わったことが明らかになりました。チームは採用活動も精力的に行っており、公式ウェブサイトには大規模モデルアルゴリズムに関連する求人が多数掲載されている。

Byte だけでなく、BAT などの古い巨人も多くの目を引くビデオ生成研究結果を発表しており、多くの大手モデルのスタートアップはさらに積極的です。 Vincent ビデオ テクノロジーではどのような新たな進歩が起こるのでしょうか?見てみましょう。

以上が誤解されている「中国版Sora」の背後にあるバイトダンスにはどのような技術があるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。