リー・フェイフェイの2人の弟子が共同指導：「マルチモーダル・プロンプト」を理解できるロボットはゼロショットのパフォーマンスを2.9倍向上させることができる

リー・フェイフェイの2人の弟子が共同指導：「マルチモーダル・プロンプト」を理解できるロボットはゼロショットのパフォーマンスを2.9倍向上させることができる

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 08:37 PM

ロボット知的

人工知能の分野における次の開発の機会は、AI モデルに「身体」を装備し、現実世界と対話して学習することかもしれません。

既存の自然言語処理、コンピュータビジョン、および特定の環境で実行されるその他のタスクと比較すると、オープンフィールドロボティクスは明らかに災害の可能性が高くなります。

たとえば、プロンプトベースの学習では、単一の言語モデルで、コードの作成、要約の実行、プロンプトを変更するだけで、質問に答えることができます。

しかし、ロボット工学では、単一のサンプルデモンストレーションを模倣する、言語の指示に従う、または特定の視覚的な目標を達成するなど、さらに多くの種類のタスク仕様が存在します。通常、さまざまなタスクについて考慮され、それらは特別に訓練されたモデルによって処理されます。

最近、NVIDIA、スタンフォード大学、マカレスター大学、カリフォルニア工科大学、清華大学、テキサス大学オースティン校の研究者が共同で、Transformer に基づくユニバーサルロボットを提案しました。インテリジェントエージェント VIMA は、マルチモーダルプロンプトを使用して、非常に高い汎化パフォーマンスを実現し、多数のロボット操作タスクを処理できます。

紙のリンク: https://arxiv.org/abs/2210.03094

プロジェクトリンク: https://vimalabs.github.io/

## コードリンク: https://github.com/vimalabs/VIMA

入力プロンプトは、

インターリーブされたテキストとビジュアルシンボル

です。 VIMA をトレーニングして評価するために、研究者らは、マルチモーダルキューを含む手続き的に生成された何千もの画像、デスクトップタスク、および 600,000 を超える専門家の軌跡を含む

新しいシミュレーションベンチマークデータセット

を提案します。は模倣学習に使用され、 4 つのレベルでモデルの汎化パフォーマンスを評価します。同じサイズのモデルと同じ量のトレーニングデータを使用し、最も困難なゼロショット汎化設定での VIMA のタスク成功率は現在の sota メソッド 2.9 の成功率です。回

。

トレーニングデータが 10 倍少ないにもかかわらず、VIMA は他の方法よりも 2.7 倍優れたパフォーマンスを発揮します。

現在、すべてのコード、事前トレーニングされたモデル、データセット、シミュレーションベンチマークは完全にオープンソース

です。

この論文の筆頭著者は、スタンフォード大学の修士 2 年生で、現在 NVIDIA Research Institute でインターンをしている Yunfan Jiang

です。 2020年にエディンバラ大学を卒業。彼の主な研究方向は、環境との相互作用を通じて学習する身体化人工知能 (身体化 AI) です。具体的な研究内容は、大規模な基本モデルを使用してオープンな身体化エージェントを実装する方法です。

論文にはリー・フェイフェイの2人の弟子が共同指導：「マルチモーダル・プロンプト」を理解できるロボットはゼロショットのパフォーマンスを2.9倍向上させることができる TwoMentors

が含まれています。二人とも李飛飛の元生徒。

Zhu Yuke

は、浙江大学を学士号を取得して卒業し、浙江大学とカナダのサイモンフレイザー大学で二重学位を取得しました。修士課程と博士課程の学生はスタンフォード大学でリー・フェイフェイ氏の指導の下で学び、2019年8月に博士号を取得した。 Zhu Yuke は現在、UT オースティン校コンピューターサイエンス学部の助教授、ロボット知覚学習研究所の所長、および NVIDIA 研究所の上級研究員を務めています。

Fan Linxi は、リーフェイフェイの指導の下、スタンフォード大学で博士号を取得し卒業し、現在は NVIDIA AI の研究員です。主な研究方向は、一般的に機能する自律エージェントの開発であり、具体的な研究作業には、基本モデル、ポリシー学習、ロボット工学、マルチモーダル学習、および大規模システムが含まれます。

ロボットとマルチモーダルプロンプト

Transformer は、NLP の分野でマルチタスクにおいて非常に高いパフォーマンスを実現しました。質疑応答を完了できるのは 1 つのモデルだけです。翻訳とテキストを同時に表示、要約など

さまざまなタスクを実装するためのインターフェイスは入力テキストプロンプト内にあり、それによって特定のタスク要件が一般的な大規模モデルに渡されます。

このプロンプトインターフェイスは一般的なロボットエージェントでも使用できますか?

家事ロボットの場合、理想的には、「GET ME 」と入力するだけで、ロボットが画像に従ってカップを受け取ることができます。やって来る。

ロボットが新しいスキルを学習する必要がある場合は、ビデオのデモンストレーションを入力して学習するのが最善です。ロボットが見慣れないオブジェクトと対話する必要がある場合は、図だけで簡単に説明できます。

同時に、安全な展開を確保するために、ユーザーは部屋に入らないでくださいなどの視覚的な制約をさらに指定できます。

##これらの機能を実現するために、VIMA モデルは主に

1、形式の 3 つの部分で構成されています。マルチモーダルプロンプト、ロボット操作タスクはシーケンスモデリング問題に変換されます;

2. 新しいロボットエージェントモデル、複数の機能が可能です-タスク操作

3. エージェントのスケーラビリティと汎用性を体系的に評価するための、さまざまなタスクを使用した大規模ベンチマーク

まず、マルチモーダルプロンプトによってもたらされる柔軟性により、開発者は多数のタスク仕様をサポートするモデルを指定および構築できます。このペーパーでは主に 6 種類のタスクについて検討します。

1、単純なオブジェクト操作、タスクプロンプトは、を

# 2.

視覚的な目標到達を実現する、再配置などの目標設定を達成するためにオブジェクトを操作する;

新しい概念を受け入れる (小説)概念の基礎) 、プロンプトには、dax、blicket などの珍しい単語が含まれています。これらの単語は、プロンプト内の画像で説明し、指示の中で直接使用できます。これにより、エージェントの新しい単語の認識をテストできます。速度を知る;

4、

ワンショットビデオの模倣、ビデオデモンストレーションを見て、特定のオブジェクトが再現される方法を学ぶ;

視覚的な制約を満たす。ロボットは安全制限に違反しないようにオブジェクトを慎重に操作する必要があります。

視覚的推論(視覚的推論)、一部のタスクではエージェントが推論できる必要があります。たとえば、「すべてのオブジェクトをと同じテクスチャでコンテナに入れる」、または「」などの視覚的な記憶が必要です。をコンテナに入れて、元の位置に戻します。"

これら 6 種類のタスクは

相互に排他的ではないことに注意してください、たとえば、タスクによっては、デモビデオ (模倣) を通じて、これまでに見たことのない動詞 (新しい概念) が導入される場合があります。 #新しいベンチマーク VIM-BENCH

難しいですモデルをトレーニングするために、研究者らは、

マルチモーダルロボット学習ベンチマーク VIMA-BENCH としていくつかのサポートデータも用意しました。

シミュレーション環境(シミュレーション環境)では、既存のベンチマークは通常、特定のタスク仕様を目的としています。現時点では、豊富なマルチモーダルタスクスイートと包括的な A テストを提供できるベンチマークはありません。ターゲットを絞った方法でエージェントの機能を検出するプラットフォーム。

この目的を達成するために、研究者らは、Ravens ロボットシミュレーターを拡張して、オブジェクトとテクスチャの拡張可能なコレクションをサポートし、マルチモーダルなキューを構成し、多数のキューを手続き的に生成することで VIMA-BENCH を構築しました。タスク。

具体的には、VIMA-BENCH は、マルチモーダルプロンプトテンプレートを備えた 17 のメタタスクを提供し、これらを 1000 の独立したタスクにインスタンス化できます。各メタタスクは、上記の 6 つのタスク指定方法の 1 つ以上に属します。

VIMA-BENCH は、スクリプト化された Oracle エージェントを通じて大量の模倣学習データを生成できます。

観察とアクションでは、シミュレータの観察空間は、正面および上から見たビューからレンダリングされた RGB 画像で構成され、ベースラインのリアルなオブジェクトのセグメンテーションと境界ボックスも提供されます。オブジェクト中心モデルのトレーニング用。

VIM-BENCH は、前作からの高度なアクション空間を継承しており、具体的には「ピックアンドプレイス」「ワイプ」などの最も基本的な動作スキルで構成されています。終末効果は姿勢によって決まります。

シミュレータには、すべてのオブジェクトの正確な位置やマルチモーダル命令などの特権付きシミュレータ状態情報を使用できるスクリプト化された Oracle プログラムもあります。基本的な説明そして専門家のデモンストレーション。

最後に、研究者らは、事前にプログラムされたオラクルによる模倣学習のための専門家の軌跡の大規模なオフラインデータセットを生成しました。データセットにはメタタスクごとに 50,000 の軌跡が含まれており、合計で 650,000 の成功した軌跡になります。

また、評価を容易にするためにオブジェクトモデルとテクスチャのサブセットを保持し、17 のメタタスクのうち 4 つをゼロショット汎化テストに使用します。

VIMA-BENCH の各タスク規格には成功と失敗のみがあり、中間状態に対する報酬信号はありません。

テスト時に、研究者は物理シミュレーターでエージェント戦略を実行して成功率を計算しました。評価されたすべてのメタタスクの平均成功率が最終的に報告される指標となります。

評価プロトコルには 4 つのレベルが含まれており、体系的にエージェントの汎化能力を調査します。各レベルはトレーニングの分布からさらに逸脱しています。したがって、厳密に言えば、一方のレベルはもう一方のレベルより難しいです。

1、配置の一般化 : トレーニングプロセス中は、すべてのプロンプトがそのまま表示されますが、テスト中は、デスクトップ上のオブジェクトの配置はランダムです。

2、組み合わせ一般化: すべてのマテリアル (形容詞) と 3 次元オブジェクト (名詞) はトレーニング中に表示されますが、一部の新しい組み合わせがトレーニング中に表示されます。テスト。

3. 新しいオブジェクトの一般化: テストプロンプトとシミュレートされたワークスペースには、新しい形容詞とオブジェクトが含まれています。

#4、新しいタスクの一般化: テスト中の新しいプロンプトテンプレートを使用した新しいメタタスク

VIMA モデル

マルチモーダルプロンプトには、合計 3 つの形式が含まれています:

1、Text、事前トレーニングされた T5 モデルを使用します。単語のセグメンテーションを実行し、ワードベクトルを取得します。

2、デスクトップシーン全体、最初にマスク R-CNN を使用してすべての独立したオブジェクトを識別します。各オブジェクトは境界ボックスで表され、画像表現をトリミングし、バウンディングボーエンコーダと ViT をそれぞれ使用してエンコードします。

3、単一オブジェクトの画像も、ViT を使用してトークンを取得し、結果のシーケンスを事前トレーニングされた T5 エンコーダーモデルに入力します。

ロボットコントローラー、つまりデコーダーの入力は、プロンプトシーケンス上の複数のクロスアテンションレイヤー後の表現と軌跡です。。

このような設計により、プロンプトへの接続が強化され、元のプロンプトトークンをより深く保持して処理できるようになり、コンピューティング効率が向上します。

テスト段階の実験計画は、主に 3 つの質問に答えることです:

1、VIMAマルチモーダルプロンプトを使用したさまざまなタスクにおける以前の SOTA Transformer ベースのエージェントとのパフォーマンスの比較;

2、モデル容量とデータボリュームのスケーリングプロパティにおける VIMA;

##3. ビジュアルワードセグメンタ、条件プロンプト、条件エンコーディングの違いが最終的な決定に影響します。

比較されるベースラインモデルには、Gato、Flamingo、Decision Transformer(DT) が含まれます。

最初にモデルスケーリング (モデルスケーリング) について、研究者は 2M から 200M のパラメーターサイズのすべてのメソッドをトレーニングし、エンコーダーのサイズは常に T5 ベースに維持されました。 VIMA は、あらゆるレベルでのゼロショット汎化評価において、他の作品よりも明らかに優れています。

Gato と Flamingo はより大きなサイズのモデルでパフォーマンスが向上しましたが、VIMA は依然としてすべてのモデルよりも優れています。

データスケーリング (データスケーリング) では、研究者は各手法のトレーニングデータに 0.1%、1% を採用しました。、10% および完全な模倣学習データセットに対するさまざまな実験では、VIMA は 10 倍のデータでトレーニングされた他の手法の L1 および L2 汎化指標を達成するために必要なデータは 1% だけです。 L4 指標では、トレーニングデータのわずか 1% で、VIMA はすでに全量のデータでトレーニングされた他のモデルよりも優れています。

プログレッシブ汎化 (漸進的汎化) のパフォーマンス比較では、より困難な汎化タスクでは、Apply がありません。微調整。 VIMA モデルは、特に L1 から L2 および L1 から L3 でパフォーマンスの低下が最も少ないのに対し、他のモデルは 20% 以上低下しています。これは、VIMA がより一般化された戦略とより堅牢な表現を学習したことも意味します。

参考:

https://arxiv.org/ abs /2210.03094

以上がリー・フェイフェイの2人の弟子が共同指導：「マルチモーダル・プロンプト」を理解できるロボットはゼロショットのパフォーマンスを2.9倍向上させることができるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません