ホームページ >テクノロジー周辺機器 >AI >言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

PHPz
PHPz転載
2023-10-16 14:21:041593ブラウズ

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

#ロボット工学の分野では、一般的なロボット戦略の実装には大量のデータが必要であり、現実世界でこのデータを収集するのは時間と労力がかかります。シミュレーションは、シーン レベルおよびインスタンス レベルでさまざまな量のデータを生成するための経済的なソリューションを提供しますが、シミュレートされた環境でタスクの多様性を高めるには、依然として大量の人員が必要となるため (特に複雑なタスクの場合) 課題に直面しています。その結果、典型的な人工シミュレーション ベンチマークには、通常、数十から数百のタスクしか含まれていません。

どうすれば解決できますか?近年、大規模な言語モデルは、さまざまなタスクの自然言語処理とコード生成において大幅な進歩を続けています。同様に、LLM は、ユーザー インターフェイス、タスクと動作計画、ロボット ログの概要、コストと報酬の設計など、ロボット工学のさまざまな側面に適用されており、物理ベースのタスクとコード生成タスクの両方で強力な機能を明らかにしています。

最近の研究では、MIT CSAIL、上海交通大学、その他の機関の研究者が、LLM を使用して多様なシミュレーション タスクを作成し、その能力をさらに調査できるかどうかをさらに調査しました。

具体的には、研究者らは LLM ベースのフレームワーク GenSim を提案しました。これは、タスク資産の配置とタスクの進捗状況を設計および検証するための自動メカニズムを提供します。さらに重要なことは、生成されたタスクは非常に多様性を示し、ロボット戦略のタスクレベルの一般化を促進します。さらに、概念的には、GenSim を使用すると、LLM の推論およびエンコード機能が、シミュレートされたデータの中間合成を通じて言語-視覚-アクション戦略に洗練されます。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

論文アドレス: https://arxiv.org/pdf/2310.01361.pdf

#GenSim フレームワークは、次の 3 つの部分で構成されます。

    最初の部分は、自然言語命令と対応するコード実装を通じて新しいタスクを提案するプロンプト メカニズムです。
  • 2 番目は、検証と言語モデルの微調整のために以前に生成された高品質の命令コードをキャッシュし、それを包括的なタスク データ セットとして返すタスク ライブラリです。
  • #最後に これは、生成されたデータを使用してタスク レベルの汎化機能を強化する、言語に適応したマルチタスク ポリシーのトレーニング プロセスです。
同時に、フレームワークは 2 つの異なるモードで動作します。このうち、目標指向設定では、ユーザーは特定のタスクを持っている、またはタスクのコースを設計したいと考えています。現時点では、GenSim はトップダウンのアプローチを採用しており、予想されるタスクを入力として受け取り、予想される目標を達成するために関連するタスクを繰り返し生成します。探索的環境では、ターゲット タスクに関する事前知識が不足している場合、GenSim は既存のタスクを超えてコンテンツを徐々に探索し、タスクから独立した基本戦略を確立します。

以下の図 1 では、研究者が手動で厳選した 10 個のタスクを含むタスク ライブラリを初期化し、GenSim を使用してそれを拡張し、100 個を超えるタスクを生成しました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

研究者らは、生成されたシミュレーション タスクの品質を段階的に測定するためにいくつかのカスタマイズされた指標も提案し、いくつかの LLM が評価されました。目標に向けた探索的な設定で。 GPT-4 によって生成されたタスク ライブラリについては、GPT-3.5 や Code-Llama などの LLM に対して教師あり微調整を実行し、LLM のタスク生成パフォーマンスをさらに向上させました。同時に、タスクの達成可能性は戦略トレーニングを通じて定量的に測定され、さまざまな属性のタスク統計とさまざまなモデル間のコード比較が提供されます。

それだけでなく、研究者らは、人間の計画タスクのみでトレーニングされたモデルと比較して、すべての生成タスクで良好なパフォーマンスを発揮するマルチタスク ロボット戦略もトレーニングしました。 。 GPT-4 生成タスクを使用した共同トレーニングにより、汎化パフォーマンスが 50% 向上し、ゼロショット タスクの約 40% をシミュレーション内の新しいタスクに転送できます。

最後に、研究者らはシミュレーションから現実への移行も検討し、さまざまなシミュレーション タスクでの事前トレーニングによって現実世界の汎化能力が 25% 向上する可能性があることを示しました。

要約すると、さまざまな LLM によって生成されたタスクでトレーニングされた戦略は、新しいタスクに対するより優れたタスク レベルの一般化機能を実現し、LLM の拡張シミュレーション タスクの可能性を通じて基本戦略をトレーニングできることを示しています。

Tenstorrent AI 製品管理ディレクターの Shubham Saboo 氏は、この研究を高く評価し、GPT-4 などの LLM を使用して自動操縦でロボットを生成する、GPT-4 とロボットを組み合わせた画期的な研究であると述べました。一連のシミュレートされたロボット タスクにより、ゼロサンプル学習とロボットの実世界への適応が実現します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

#メソッドの紹介

下の図 2 に示すように、GenSimフレームワーク パス プロシージャル合成は、シミュレーション環境、タスク、およびデモンストレーションを生成します。 GenSim パイプラインはタスク作成者から開始され、プロンプト チェーンはターゲット タスクに応じて、目標指向モードと探索モードの 2 つのモードで実行されます。 GenSim のタスク ライブラリは、以前に生成された高品質のタスクを保存するために使用されるメモリ内コンポーネントであり、タスク ライブラリに保存されたタスクは、マルチタスク ポリシーのトレーニングや LLM の微調整に使用できます。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

#Task Creator

以下に示すように3 に示すように、言語チェーンは最初にタスクの説明を生成し、次に関連する実装を生成します。タスクの説明には、タスク名、リソース、タスクの概要が含まれます。この調査では、パイプラインで少数のサンプル プロンプトを使用してコードを生成します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

タスク ライブラリ

GenSim 内フレームワーク タスク ライブラリには、より優れた新しいタスクを生成し、マルチタスク戦略をトレーニングするために、タスク作成者によって生成されたタスクが保存されます。タスク ライブラリは、手動で作成されたベンチマークのタスクに基づいて初期化されます。

タスク ライブラリは、タスク作成者に説明生成フェーズの条件として以前のタスクの説明を提供し、コード生成フェーズに以前のコードを提供し、タスク作成者にプロンプ​​トを表示します。タスク ライブラリ 新しいタスクを作成するための例として参照タスクを選択します。タスクの実装が完了し、すべてのテストに合格すると、LLM は新しいタスクとタスク ライブラリを「反映」し、新しく生成されたタスクをライブラリに追加するかどうかについて包括的な決定を下すように求められます。

#以下の図 4 に示すように、この研究では、GenSim が興味深いタスクレベルの組み合わせと外挿動作を示していることも観察されました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

LLM 教師ありマルチタスク戦略

タスクが生成された後、調査ではこれらのタスク実装を使用してShridhar et al. (2022) と同様のデュアルストリーム伝送ネットワーク アーキテクチャを使用して、データをデモンストレーションし、運用戦略をトレーニングします。

以下の図 5 に示すように、この研究では、プログラムをタスクと関連するデモンストレーション データの効果的な表現とみなして (図 5)、タスク間の埋め込みスペースとその埋め込みスペースを定義できます。距離インデックス オブジェクトの姿勢や形状など、知覚から派生するさまざまな要因に対してより堅牢です。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。#実験と結果

この研究では、実験を使用して GenSim を検証します。 (1) LLM は、シミュレーション タスクの設計と実装においてどの程度効果的ですか? GenSim はタスク生成における LLM のパフォーマンスを向上させることができますか? (2) LLM によって生成されたタスクに関するトレーニングは、ポリシーの一般化能力を向上させることができますか?より多くの生成タスクを与えれば、ポリシー トレーニングのメリットはさらに大きくなるでしょうか? (3) LLM で生成されたシミュレーション タスクの事前トレーニングは、現実世界のロボット ポリシーの展開に有益ですか?

LLM ロボット シミュレーション タスクの汎化能力の評価

以下の図 6 に示すように、探索モードの場合ガイド モードのタスク生成、少数のサンプルとタスク ライブラリを使用した 2 段階のプロンプト チェーンにより、コード生成の成功率を効果的に向上させることができます。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。#タスク レベルの一般化

関連タスクの少数サンプル戦略の最適化。以下の図 7 の左側からわかるように、LLM によって生成されたタスクを共同トレーニングすると、特にデータ量が少ない状況 (5 つのデモなど) で、元の CLIPort タスクのポリシーのパフォーマンスが 50% 以上向上します。

ゼロショット ポリシーを目に見えないタスクに一般化します。図 7 からわかるように、LLM によって生成されたより多くのタスクで事前トレーニングすることにより、モデルは元の Ravens ベンチマークのタスクに対してより適切に一般化できます。図 7 の中央右では、研究者らはまた、手動で作成されたタスク、クローズドソース LLM、オープンソースの微調整された LLM を含む、異なるタスク ソースで 5 つのタスクを事前トレーニングし、同様のゼロショット タスク レベルを観察しました。一般化。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

##事前トレーニングされたモデルを現実世界に適応させる

研究者は、シミュレーション環境で訓練された戦略を現実の環境に移しました。結果は以下の表 1 に示されており、GPT-4 で生成された 70 個のタスクで事前トレーニングされたモデルは、9 個のタスクで 10 回の実験を実施し、平均成功率 68.8% を達成しました。これは、CLIPort タスクのみで事前トレーニングした場合よりも優れています。ベースライン モデルと比較すると 25% 以上改善され、わずか 50 のタスクで事前トレーニングされたモデルと比較すると 15% 改善されました。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

研究者らは、さまざまなシミュレーション タスクでの事前トレーニングにより、長期にわたる複雑なタスクの堅牢性が向上することも観察しました。たとえば、GPT-4 の事前トレーニングされたモデルは、実際のビルドホイール タスクでより堅牢なパフォーマンスを示します。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。

#アブレーション実験

シミュレーショントレーニング成功レート。以下の表 2 では、研究者らは 200 個のデモを使用して、生成されたタスクのサブセットに対するシングルタスクおよびマルチタスクのポリシー トレーニングの成功率を示しています。 GPT-4 生成タスクに関するポリシー トレーニングの場合、平均タスク成功率はシングル タスクで 75.8%、マルチタスクで 74.1% です。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。#タスク統計を生成します。以下の図 9 (a) では、研究者は、LLM によって生成された 120 個のタスクのさまざまな機能のタスク統計を示しています。 LLM モデルによって生成される色、アセット、アクション、およびインスタンスの数の間には、興味深いバランスがあります。たとえば、生成されたコードには、7 つを超えるオブジェクト インスタンスを含む多くのシーンに加えて、ピック アンド プレイスのプリミティブ アクションやブロックなどのアセットが多数含まれています。

コード生成の比較。以下の図 9(b) では、研究者は GPT-4 と Code Llama のトップダウン実験で失敗したケースを定性的に評価しています。

言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。#技術的な詳細については、元の論文を参照してください。

以上が言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。