ホームページ > 記事 > テクノロジー周辺機器 > WorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させます
OpenAI の Sora は、今年 2 月に衝撃的なデビューを果たし、テキスト生成ビデオに新たなブレークスルーをもたらしました。テキスト入力に基づいて、ハリウッドから来たような驚くほどリアルで想像力豊かなビデオを作成できます。多くの人がこのイノベーションに驚嘆し、OpenAI のパフォーマンスが頂点に達したと信じています。
Sora のブームが止まらない一方で、AI 動画生成技術の大きな可能性が研究者の間で認識され始めており、この分野はますます注目を集めています。
しかし、現在の AI ビデオ生成分野では、ほとんどのアルゴリズム研究がテキスト プロンプトを介してビデオを生成することに焦点を当てており、マルチモーダル入力、特に画像が表示されるシーンについての詳細な議論や詳細な議論はありません。とテキストを組み合わせたもので、広く使用されています。このバイアスにより、生成されるビデオの多様性と制御性が低下し、静止画像を動的なビデオに変換する機能が制限されます。
一方、既存のほとんどのビデオ生成モデルには、生成されたビデオ コンテンツの編集機能のサポートが不足しており、生成されたビデオを個別に調整するというユーザーのニーズを満たすことができません。
ヒント: パンダをクマに変えて踊らせます。 (パンダをクマに変えて踊らせます。)
この記事では、SEEKING AI、ハーバード大学、スタンフォード大学、北京大学の研究者が共同で、革新的な画像テキストベースのビデオを生成および編集することを提案しました。 WorldGPTと呼ばれる統一フレームワーク。このフレームワークは、SEEKING AIと上記の一流大学が共同開発したVisionGPTフレームワークをベースに構築されており、写真やテキストから直接動画を生成する機能を実現するだけでなく、生成された動画のスタイル転送や背景置換もサポートしています。単純なテキスト プロンプト (プロンプト)、および一連のビデオの外観編集操作。
このフレームワークのもう 1 つの大きな利点は、トレーニングが必要ないことです。これにより、技術的な敷居が大幅に下がり、導入と使用が非常に便利になります。ユーザーは、背後にある退屈なトレーニング プロセスに注意を払うことなく、モデルを直接使用して作成できます。
次に、さまざまな複雑なビデオ生成制御シナリオにおける WorldGPT の例を見てみましょう。
プロンプト: 「唸る嵐の中で船団がもがきながら前進し、容赦ない嵐の巨大な波に帆を立てて航行しました。 .(船団はうなる嵐の中を進み、帆を波打たせながら容赦ない嵐のそびえ立つ波を航行しました。)》
プロンプト:「かわいいドラゴンが都市の通りに火を吐いています。」
#上記の例からわかるように、WorldGPT は複雑に直面しています。ビデオ生成命令には次の利点があります。
1) 構造と元の入力画像の環境;
2) 画像とテキストの説明に準拠した生成ビデオを生成し、強力なビデオ生成およびカスタマイズ機能を示します;
3) 生成されたビデオをカスタマイズできますプロンプトを通じて。
WorldGPT の原理、実験、使用例について詳しくは、元の論文をご覧ください。
VisonGPTVisionGPT は、SeekingAI、スタンフォード大学、ハーバード大学、北京大学およびその他の世界有数の機関によって共同開発された、画期的なオープンワールド視覚認識大規模モデル フレームワークです。このフレームワークは、最先端の SOTA 大規模モデルのインテリジェントな統合と意思決定による選択を通じて、強力な AI マルチモーダル画像処理機能を提供します。
VisionGPT の革新性は主に 3 つの側面に反映されています:
まず、ユーザーのプロンプト要求を分解するコアとして大規模な言語モデル (LLaMA-2 など) を使用します。詳細なステップ要件を分析し、処理に最適な大規模モデルを自動的に呼び出します;上記からわかるように、VisionGPT は、1) 微調整なしでオープンワールドでのインスタンスのセグメンテーション、2) プロンプトベースの画像生成および編集機能などを簡単に実現できます。 VisionGPTのワークフローを下図に示します。
詳細については、論文を参照してください。
さらに、研究者らは VisionGPT-3D も立ち上げました。これは、テキストを視覚要素に変換する際の大きな課題、つまり効率的に変換する方法を解決することを目的としています。 2D 画像を 3D 表現に正確に変換します。このプロセスでは、アルゴリズムと実際のニーズが一致しないという問題に直面することが多く、最終結果の品質に影響を与えます。 VisionGPT-3D は、複数の最先端の SOTA ビジョン大規模モデルを統合することで、この変換プロセスを最適化するマルチモーダル フレームワークを提案します。その核となる革新性は、最適なビジュアル SOTA モデルと 3D 点群作成アルゴリズムを自動的に選択し、テキスト プロンプトなどのマルチモーダル入力に基づいてユーザーのニーズに最適な出力を生成する機能にあります。
詳細については、元の論文を参照してください。
以上がWorldGPT はこちらです: Sora のようなビデオ AI エージェントを作成し、グラフィックスとテキストを「復活」させますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。