ホームページ  >  記事  >  テクノロジー周辺機器  >  清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

王林
王林オリジナル
2024-06-09 17:06:01845ブラウズ
iVideoGPT は、ワールド モデルの高度なインタラクティブ性のニーズを満たします。

生成モデルは近年大きく進歩しており、その中でもビデオ生成は新たなフロンティアとなりつつあります。これらの生成ビデオ モデルの重要な用途は、予測世界モデルを構築するために、インターネット規模の多様なデータを教師なしで学習することです。これらの世界モデルは、世界がどのように機能するかについての常識的な知識を蓄積し、エージェントの行動に基づいて潜在的な将来の結果を予測できるようにすると期待されています。

これらの世界モデルを活用することで、強化学習を使用するエージェントは、世界モデル内で想像、推論、計画を立てることができ、それにより、少量の実験で現実世界でより安全かつ効果的に新しいスキルを習得できます。

生成モデルと世界モデルの間には基本的な関係があるにもかかわらず、ビデオ生成のための生成モデルとエージェント学習のための世界モデルの開発の間には依然として大きなギャップがあります。主な課題の 1 つは、対話性とスケーラビリティの間で最適なバランスをどのように達成するかです。

モデルベースの強化学習の分野では、ワールドモデルは主にリカレントネットワークアーキテクチャを使用します。この設計では、各ステップのアクションに基づいて観察または潜在状態を渡すことができるため、対話型の行動学習が促進されます。ただし、これらのモデルは主にゲームまたはシミュレーション環境に焦点を当てており、データは単純であり、大規模で複雑な実際のデータをモデル化する能力は限られています。

対照的に、インターネット規模のビデオ生成モデルは、テキストによる説明や将来のアクションシーケンスで制御できる現実的な長いビデオを合成できます。このようなモデルでは、高レベルの長期計画が可能ですが、その軌跡レベルの対話性では、基本的なスキルとして正確な行動を効果的に学習するための十分な粒度がエージェントに提供されません。

清華大学、ファーウェイ・ノアの方舟研究所、天津大学の研究者らは、iVideoGPT (Interactive VideoGPT) を提案しました。これは、マルチモーダル信号 (視覚的観察、アクション、報酬) を組み合わせたスケーラブルな自己回帰 Transformer フレームワークであり、一連のトークンを使用して、エージェントが次のトークンを予測することでインタラクティブなエクスペリエンスを実行できるようにします。

iVideoGPT は、新しい圧縮トークン化テクノロジーを使用して、高次元の視覚的観測を効果的に離散化します。スケーラブルなアーキテクチャを活用することで、研究者は何百万もの人間とロボットの操作軌跡で iVideoGPT を事前トレーニングすることができ、それによってさまざまな下流タスクのインタラクティブな世界モデルとして使用できる汎用性の高い基盤を確立できました。この研究は、インタラクティブな普遍世界モデルの開発を促進します。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
  • 論文アドレス: https://arxiv.org/pdf/2405.15223
  • 論文タイトル: iVideoGPT: インタラクティブ VideoGPT はスケーラブルな世界モデルです

メソッド

このパートでは、研究チームはスケーラブルな世界モデル アーキテクチャである iVideoGPT を紹介します。これは非常に柔軟で、視覚的な観察、アクション、報酬、その他の潜在的な入力を含むマルチモーダル情報を統合できます。

iVideoGPT のコアには、ビデオ フレームを離散化するための圧縮トークナイザーと、後続のトークンを予測するための自己回帰変換器が含まれています。多様なビデオ データで事前トレーニングすることにより、モデルは広範な世界の知識を取得し、下流のタスクに効率的に転送できます。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
アーキテクチャ

圧縮トークン化。 Transformer は、離散トークン シーケンスで特にうまく機能します。 VQGAN は、生のピクセルを個別のトークンに変換する、一般的に使用されるビジュアル トークナイザーです。研究者らは、ビデオをトークン化するために、デュアル エンコーダーとデコーダー {(E_c, D_c), (E_p, D_p)} で構成される新しい条件付き VQGAN を使用することを提案しました。

図 3a に示すように、初期コンテキスト フレーム 清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化 には豊富なコンテキスト情報が含まれており、N 個のトークンを通じて独立してトークン化および再構築されます。
対照的に、コンテキスト フレームと将来のフレーム間の時間的冗長性により、移動オブジェクトの位置や姿勢などの必要な変更情報のみをエンコードする必要があります。上記のプロセスは、条件付きエンコーダーとデコーダーを使用して実現されます:

清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

研究者らは、マルチスケール特徴マップ間のクロスアテンションを使用して条件付きメカニズムを実装しました。一般に、トークナイザーは次の目標を持ってトレーニングされます:

清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

この研究で提案されたトークン化には、主に 2 つの利点があります:

  • まず、トークン化されたビデオのシーケンスが大幅に削減され、直線的に増加します。
  • 第二に、条件付きエンコードを通じて、後続のトークンを予測するトランスフォーマーは、コンテキストの時間的一貫性をより簡単に維持し、モデリングに必要な動的情報に焦点を当てることができます。

Transformer のインタラクティブな予測。トークン化後、ビデオは一連のトークンに平坦化されます:

清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

の長さは清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化です。特別なスロット トークン [S] が挿入されてフレーム境界を描き、アクションなどの追加の低次元モダリティの融合を促進します。図 3b に示すように、GPT のような自己回帰変換器は、ネクスト トークンをフレームごとに生成することにより、インタラクティブ ビデオ予測に使用されます。この研究では、チームは GPT-2 のモデル サイズを使用しましたが、回転位置埋め込みなどの LLM アーキテクチャの最近の革新を活用するために LLaMA アーキテクチャを適応させました。

事前トレーニング

大規模な言語モデルは、次の単語の予測を通じて自己教師ありの方法でインターネットのテキストから広範な知識を得ることができます。同様に、世界モデルのアクションフリーのビデオ事前トレーニング パラダイムは、LLM に欠けている物理世界の知識に対してインターネット規模の監視を提供するための事前トレーニング目標としてビデオ予測を使用します。

研究者らは、この一般的なターゲットで iVideoGPT を事前トレーニングし、クロスエントロピー損失を適用して後続のビデオ トークンを予測しました:

清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化

トレーニング前のデータ。インターネット上には多数のビデオが公開されていますが、計算能力の限界により、研究者らは特にロボット操作の分野向けに iVideoGPT を事前トレーニングしました。彼らは、Open X-Embodiment (OXE) データセットと Something-Something v2 (SSv2) データセットの 35 のデータセットを組み合わせて利用し、合計 150 万の軌跡を取得しました。

微調整

行動条件と報酬予測。図 3b に示すように、チームのアーキテクチャは、インタラクティブな世界モデルを学習するために追加のモダリティを柔軟に統合するように設計されています。アクションは線形投影を介して統合され、スロット トークンの埋め込みに追加されます。報酬予測の場合、個別の報酬予測子を学習する代わりに、各観測の最後のトークンの隠れた状態に線形ヘッドを追加しました。

このマルチタスク学習方法は、タスク関連情報に対するモデルの注意を強化し、それによって制御タスクの予測精度を向上させることができます。式 (3) のクロスエントロピー損失に加えて、彼らは報酬予測に平均二乗誤差損失も使用しました。

トークナイザーの適応。研究チームは、下流のタスクに適応するためにトークナイザーを含む完全なモデルを更新することを選択し、この戦略がパラメーター効率の高い微調整方法よりも効果的であることを発見しました。

ドメイン固有のデータに対する VQGAN トークナイザーの使用を調査した文献はほとんどありません。この研究では、トークン化により動的情報がコンテキスト条件から切り離されるため、このモデルはさまざまな種類のロボットなど、下流のタスクで目に見えないオブジェクトに遭遇する可能性があるものの、トランスフォーマーはさまざまなシナリオから学習するものと想定されています 基本的な物理知識 - 動きや相互作用など- 共有されます。

この仮説は、iVideoGPT を混合事前トレーニング データから目に見えない BAIR データセットに移行した実験によって裏付けられています。そこでは、事前トレーニングされたトランスフォーマーは、目に見えない微調整に対してのみ、ゼロショット一般化で自然な動きを予測できます。これまでに見たロボット グリッパーのトークナイザー (図 7 を参照)。この機能は、GPT のようなトランスフォーマーを大きなサイズにスケーリングする場合に特に重要であり、トランスフォーマーをそのまま維持しながらドメイン全体での軽量の調整を可能にします。表 1 に示すように、iVideoGPT は、そのアーキテクチャで対話性とスケーラビリティを実現しながら、SOTA メソッドと比較して競争力のあるパフォーマンスを示します。予備実験は 64×64 の低解像度で実行されましたが、iVideoGPT は RoboNet の 256×256 まで簡単に拡張できます。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
定性的な結果については、図 9 を参照してください。

図 4 は、ベースライン モデルと比較した iVideoGPT の成功率を示しています。 iVideoGPT は、RoboDesk タスクの両方ですべてのベースラインを大幅に上回り、最も強力なモデル SVG に匹敵する平均パフォーマンスを達成します。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化 図 6 は、モデルベースのアルゴリズムがモデルフリー アルゴリズムよりもサンプル効率を向上させるだけでなく、DreamerV3 のパフォーマンスに達するか、それを超えることを示しています。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化次の研究では、目に見えない BAIR データセット上で大規模な事前トレーニングされた iVideoGPT のゼロショット ビデオ予測能力を分析します。興味深いことに、図 7 の 2 行目では、トレーニング前のデータセットとは異なりますが、iVideoGPT が微調整なしでロボット グリッパーの自然な動きを予測していることがわかります。これは、事前トレーニング データの多様性が不十分なため、モデルが完全に目に見えないロボットに対するゼロショット一般化を制限しているにもかかわらず、シーン コンテキストをモーション ダイナミクスから効果的に分離していることを示しています。対照的に、適応トークナイザーを使用すると、微調整されていない Transformer は、事前トレーニングされた知識をうまく転送し、3 行目の新しいロボットの動きを予測し、4 行目の完全に微調整された Transformer と同様の認識を提供します。品質および定量的な結果を図 8a に示します。
清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化その他の結果については、元の論文を参照してください。

以上が清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。