ホームページ > 記事 > テクノロジー周辺機器 > MoEでサブミッション99個を制覇しよう!浙江大学などが新たな総合ロボット戦略GeRMを提案
マルチタスクのロボット学習は、多様で複雑なシナリオに対処する上で非常に重要です。ただし、現在の方法はパフォーマンスの問題とトレーニング データセットの収集の難しさによって制限されています。
この論文では、研究者がオフライン強化学習を使用してデータ活用戦略を最適化し、デモンストレーションや次善のデータから学習することで、人間によるデモンストレーションの限界を超える GeRM (General Robot Model) を提案します。
#著者: Song Wenxuan、Zhao Han、Ding Pengxiang、Cui Can、Lu Shanke、Fan Yaning、Wang Donglin
単位: 西湖大学、浙江大学
論文アドレス: https://arxiv.org/abs/2403.13358
# #プロジェクトアドレス: https://songwxuan.github.io/GeRM/次に、Transformer ベースのビジョン言語アクション モデルを使用して、マルチモーダル入力および出力アクションを処理します。 。
エキスパート ハイブリッド構造を導入することにより、GeRM はより高速な推論速度とより高い全体的なモデル容量を実現し、強化学習パラメータの制限の問題を解決し、学習中のマルチタスク モデルのパフォーマンスを向上させます。計算コストを制御しながら。
一連の実験を通じて、GeRM がトレーニングと推論プロセスの効率性を検証しながら、すべてのタスクで他の方法よりも優れていることが証明されました。
さらに、研究者はトレーニングをサポートするために QUARD-Auto データセットも提供しました。このデータセットの構築は、この記事で提案されているデータ自動収集の新しいパラダイムに従っています。データ収集のコストにより、マルチタスク学習コミュニティの進歩が促進されます。
主な貢献:
#1. 4 脚強化学習のためのハイブリッド エキスパート モデルを初めて提案しました。最適なポリシーを学習できる可能性のある、混合品質のデータでトレーニングします。2. 既存の方法と比較して、GeRM は自身のパラメータの 1/2 だけを活性化し、創発能力を活性化し、同時に訓練プロセス中に高い成功率を示します。より優れたデータ利用戦略を に示します。
3. 完全自動ロボット データ セット収集のパラダイムを提案し、大規模なオープンソース データ セットを収集しました。
方法
GeRM ネットワーク構造を図 1 に示します。デモンストレーション データと失敗データを含む視覚言語入力は、エンコーダを通過した後、8 に入力され、デコーダーは混合エキスパート構造の層を使用してアクション トークンを生成し、最終的には個別のロボット アクション データに変換され、基礎となる戦略を通じてロボットに展開されます。図 1 GeRM ネットワーク構造図
GeRM Decoder は、Transformer Decoder を含むアーキテクチャ モデルです。フィードフォワード ネットワーク (FFN) は、8 つの異なるエキスパート ネットワークのセットから選択されました。
各層で、トークンごとに、ゲート ネットワークはトークンを処理する 2 人の専門家を選択し、重み付けされた方法で出力を結合します。
さまざまな専門家が、さまざまなタスクやさまざまなアクション次元を得意としており、さまざまなシナリオで問題を解決することで、複数のタスクにわたる共通のモデルを学習します。このアーキテクチャでは、計算コストを本質的に変更せずに、ネットワーク パラメータの量を拡張します。
#図 2 デコーダ構造図
ロボットのマルチモード状態を収集するための自動パラダイムを提案しますデータ。このようにして、デモンストレーション データと準最適データの組み合わせを含む大規模ロボット データセットである QUARD-Auto を構築しました。これには 5 つのタスクと 99 のサブタスクが含まれており、合計 257,000 の軌跡があります。私たちはロボットコミュニティの発展を促進するためにオープンソースを提供します。
#表 1 データ セットの概要
図3 データボリューム統計
#私たちは、99 のサブタスクすべてをカバーする包括的で堅牢な一連の実験を実施し、それぞれのサブタスクを 400 の軌道で慎重にテストしました。
表 1 に示すように、GeRM はすべてのタスクの中で最も成功率が高くなります。 RT-1 や他の GeRM バリアントと比較して、混合品質のデータから効果的に学習し、他の方法よりも優れたパフォーマンスを発揮し、複数のタスクで優れた機能を発揮します。同時に、MoE モジュールは、推論中にいくつかのパラメーターをアクティブにすることで、計算コストとパフォーマンスのバランスをとります。
#表 2 マルチタスクの比較実験
GeRM は、優れたトレーニング効率を示しています。他の方法と比較して、GeRM はわずか数バッチで極めて低い損失と高い成功率を達成し、データ利用戦略を最適化する GeRM の能力を強調しています。
図 4 成功率/損失変化曲線
GeRM は、動的適応パス プランニングの創発能力を実証します。動画にあるように、四足ロボットは初期位置では視野が限られており、移動方向を判断することが困難です。障害物を避けるために、ランダムに左折を選択します。
その後、誤った視覚入力に遭遇した後、ロボットは、元の視野の外側にある正しいターゲットと位置を合わせるために大幅な再方向付けを実行しました。その後、目的地に向かって進み、最終的にその使命を完了します。
このような軌跡はトレーニング データ セットの分布に属さないことに注意してください。これは、シーンのコンテキストにおける動的な適応パス プランニングに対する GeRM の新しい機能、つまり、視覚に基づいて意思決定を行い、将来のパスを計画し、必要に応じて次のステップを変更する機能を示しています。
#図 5 緊急機能
以上がMoEでサブミッション99個を制覇しよう!浙江大学などが新たな総合ロボット戦略GeRMを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。