ホームページ  >  記事  >  テクノロジー周辺機器  >  WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WBOY
WBOY転載
2024-03-22 08:30:441201ブラウズ

OpenAI の Sora は、今年 2 月に衝撃的なデビューを果たし、テキスト生成ビデオに新たなブレークスルーをもたらしました。テキスト入力に基づいて、ハリウッドから来たような驚くほどリアルで想像力豊かなビデオを作成できます。多くの人がこのイノベーションに驚嘆し、OpenAI のパフォーマンスが頂点に達したと信じています。

Sora のブームが止まらない一方で、AI 動画生成技術の大きな可能性が研究者の間で認識され始めており、この分野はますます注目を集めています。

しかし、現在の AI ビデオ生成分野では、ほとんどのアルゴリズム研究がテキスト プロンプトを介してビデオを生成することに焦点を当てており、マルチモーダル入力、特に画像が表示されるシーンについての詳細な議論や詳細な議論はありません。とテキストを組み合わせたもので、広く使用されています。このバイアスにより、生成されるビデオの多様性と制御性が低下し、静止画像を動的なビデオに変換する機能が制限されます。

一方、既存のほとんどのビデオ生成モデルには、生成されたビデオ コンテンツの編集機能のサポートが不足しており、生成されたビデオを個別に調整するというユーザーのニーズを満たすことができません。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

ヒント: パンダをクマに変えて踊らせます。 (パンダをクマに変えて踊らせます。)

この記事では、SEEKING AI、ハーバード大学、スタンフォード大学、北京大学の研究者が共同で、革新的な画像テキストベースのビデオを生成および編集することを提案しました。 WorldGPTと呼ばれる統一フレームワーク。このフレームワークは、SEEKING AIと上記の一流大学が共同開発したVisionGPTフレームワークをベースに構築されており、写真やテキストから直接動画を生成する機能を実現するだけでなく、生成された動画のスタイル転送や背景置換もサポートしています。単純なテキスト プロンプト (プロンプト)、および一連のビデオの外観編集操作。

このフレームワークのもう 1 つの大きな利点は、トレーニングが必要ないことです。これにより、技術的な敷居が大幅に下がり、導入と使用が非常に便利になります。ユーザーは、背後にある退屈なトレーニング プロセスに注意を払うことなく、モデルを直接使用して作成できます。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

  • 論文アドレス: https://arxiv.org/pdf/2403.07944.pdf
  • 論文タイトル: WorldGPT: A Sora-Inspired Videoテキストおよび画像入力からのリッチ ワールド モデルとしての AI エージェント

次に、さまざまな複雑なビデオ生成制御シナリオにおける WorldGPT の例を見てみましょう。

背景を置き換えて生成されたビデオ

プロンプト: 「唸る嵐の中で船団がもがきながら前進し、容赦ない嵐の巨大な波に帆を立てて航行しました。 .(船団はうなる嵐の中を進み、帆を波打たせながら容赦ない嵐のそびえ立つ波を航行しました。)》

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

背景置換定型化生成ビデオ

プロンプト:「かわいいドラゴンが都市の通りに火を吐いています。」

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

#オブジェクト置換背景置換生成ビデオ

プロンプト: 「サイバーパンク スタイルのロボットはサイバーパンクです」スタイルのオートマトンは、ネオンに照らされたディストピアの街並みを駆け抜け、そびえ立つホログラムの反射と滑らかな金属製のボディにデジタル ディケイが投影され、滑らかな金属製のボディ全体でデジタル ディケイが再生されました。)》

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます#上記の例からわかるように、WorldGPT は複雑に直面しています。ビデオ生成命令には次の利点があります。

1) 構造と元の入力画像の環境;

2) 画像とテキストの説明に準拠した生成ビデオを生成し、強力なビデオ生成およびカスタマイズ機能を示します;

3) 生成されたビデオをカスタマイズできますプロンプトを通じて。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させますWorldGPT の原理、実験、使用例について詳しくは、元の論文をご覧ください。

VisonGPT

前述したように、WorldGPT フレームワークは VisionGPT フレームワークに基づいて構築されています。次にVisionGPTに関する情報を簡単に紹介します。

VisionGPT は、SeekingAI、スタンフォード大学、ハーバード大学、北京大学およびその他の世界有数の機関によって共同開発された、画期的なオープンワールド視覚認識大規模モデル フレームワークです。このフレームワークは、最先端の SOTA 大規模モデルのインテリジェントな統合と意思決定による選択を通じて、強力な AI マルチモーダル画像処理機能を提供します。

VisionGPT の革新性は主に 3 つの側面に反映されています:

まず、ユーザーのプロンプト要求を分解するコアとして大規模な言語モデル (LLaMA-2 など) を使用します。詳細なステップ要件を分析し、処理に最適な大規模モデルを自動的に呼び出します;
  1. 第二に、VisionGPT は、複数の SOTA 大規模モデルから生成されたマルチモーダル出力を自動的に受け入れて融合し、ユーザーのニーズに合わせた画像処理を生成します。結果;
  2. 最後に、VisionGPT は非常に柔軟で多用途であり、ユーザーがモデルを微調整することなく、テキスト駆動型の画像の理解、生成、編集を含む幅広いアプリケーション シナリオをサポートできます。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

論文アドレス: https://arxiv.org/pdf/2403.09027.pdf
  • 論文タイトル: VisionGPT: ビジョン-一般化されたマルチモーダル フレームワークを使用した言語理解エージェント
VisionGPT の使用例

上記からわかるように、VisionGPT は、1) 微調整なしでオープンワールドでのインスタンスのセグメンテーション、2) プロンプトベースの画像生成および編集機能などを簡単に実現できます。 VisionGPTのワークフローを下図に示します。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

詳細については、論文を参照してください。

VisionGPT-3D

さらに、研究者らは VisionGPT-3D も立ち上げました。これは、テキストを視覚要素に変換する際の大きな課題、つまり効率的に変換する方法を解決することを目的としています。 2D 画像を 3D 表現に正確に変換します。このプロセスでは、アルゴリズムと実際のニーズが一致しないという問題に直面することが多く、最終結果の品質に影響を与えます。 VisionGPT-3D は、複数の最先端の SOTA ビジョン大規模モデルを統合することで、この変換プロセスを最適化するマルチモーダル フレームワークを提案します。その核となる革新性は、最適なビジュアル SOTA モデルと 3D 点群作成アルゴリズムを自動的に選択し、テキスト プロンプトなどのマルチモーダル入力に基づいてユーザーのニーズに最適な出力を生成する機能にあります。

WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます

  • 論文アドレス: https://arxiv.org/pdf/2403.09530v1.pdf
  • 論文タイトル: VisionGPT-3D: A Generalized 3D ビジョンの理解を強化するためのマルチモーダル エージェント

詳細については、元の論文を参照してください。

以上がWorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。