マルチタスクのロボット学習は、多様で複雑なシナリオに対処する上で非常に重要です。ただし、現在の方法はパフォーマンスの問題とトレーニング データセットの収集の難しさによって制限されています。
この論文では、研究者がオフライン強化学習を使用してデータ活用戦略を最適化し、デモンストレーションや次善のデータから学習することで、人間によるデモンストレーションの限界を超える GeRM (General Robot Model) を提案します。
#著者: Song Wenxuan、Zhao Han、Ding Pengxiang、Cui Can、Lu Shanke、Fan Yaning、Wang Donglin
単位: 西湖大学、浙江大学
論文アドレス: https://arxiv.org/abs/2403.13358
# #プロジェクトアドレス: https://songwxuan.github.io/GeRM/次に、Transformer ベースのビジョン言語アクション モデルを使用して、マルチモーダル入力および出力アクションを処理します。 。
エキスパート ハイブリッド構造を導入することにより、GeRM はより高速な推論速度とより高い全体的なモデル容量を実現し、強化学習パラメータの制限の問題を解決し、学習中のマルチタスク モデルのパフォーマンスを向上させます。計算コストを制御しながら。
一連の実験を通じて、GeRM がトレーニングと推論プロセスの効率性を検証しながら、すべてのタスクで他の方法よりも優れていることが証明されました。
さらに、研究者はトレーニングをサポートするために QUARD-Auto データセットも提供しました。このデータセットの構築は、この記事で提案されているデータ自動収集の新しいパラダイムに従っています。データ収集のコストにより、マルチタスク学習コミュニティの進歩が促進されます。
主な貢献:
#1. 4 脚強化学習のためのハイブリッド エキスパート モデルを初めて提案しました。最適なポリシーを学習できる可能性のある、混合品質のデータでトレーニングします。2. 既存の方法と比較して、GeRM は自身のパラメータの 1/2 だけを活性化し、創発能力を活性化し、同時に訓練プロセス中に高い成功率を示します。より優れたデータ利用戦略を に示します。
3. 完全自動ロボット データ セット収集のパラダイムを提案し、大規模なオープンソース データ セットを収集しました。
方法
GeRM ネットワーク構造を図 1 に示します。デモンストレーション データと失敗データを含む視覚言語入力は、エンコーダを通過した後、8 に入力され、デコーダーは混合エキスパート構造の層を使用してアクション トークンを生成し、最終的には個別のロボット アクション データに変換され、基礎となる戦略を通じてロボットに展開されます。
GeRM Decoder は、Transformer Decoder を含むアーキテクチャ モデルです。フィードフォワード ネットワーク (FFN) は、8 つの異なるエキスパート ネットワークのセットから選択されました。
各層で、トークンごとに、ゲート ネットワークはトークンを処理する 2 人の専門家を選択し、重み付けされた方法で出力を結合します。
さまざまな専門家が、さまざまなタスクやさまざまなアクション次元を得意としており、さまざまなシナリオで問題を解決することで、複数のタスクにわたる共通のモデルを学習します。このアーキテクチャでは、計算コストを本質的に変更せずに、ネットワーク パラメータの量を拡張します。
#図 2 デコーダ構造図
ロボットのマルチモード状態を収集するための自動パラダイムを提案しますデータ。このようにして、デモンストレーション データと準最適データの組み合わせを含む大規模ロボット データセットである QUARD-Auto を構築しました。これには 5 つのタスクと 99 のサブタスクが含まれており、合計 257,000 の軌跡があります。私たちはロボットコミュニティの発展を促進するためにオープンソースを提供します。
#表 1 データ セットの概要
図3 データボリューム統計
実験
#私たちは、99 のサブタスクすべてをカバーする包括的で堅牢な一連の実験を実施し、それぞれのサブタスクを 400 の軌道で慎重にテストしました。
表 1 に示すように、GeRM はすべてのタスクの中で最も成功率が高くなります。 RT-1 や他の GeRM バリアントと比較して、混合品質のデータから効果的に学習し、他の方法よりも優れたパフォーマンスを発揮し、複数のタスクで優れた機能を発揮します。同時に、MoE モジュールは、推論中にいくつかのパラメーターをアクティブにすることで、計算コストとパフォーマンスのバランスをとります。
#表 2 マルチタスクの比較実験
GeRM は、優れたトレーニング効率を示しています。他の方法と比較して、GeRM はわずか数バッチで極めて低い損失と高い成功率を達成し、データ利用戦略を最適化する GeRM の能力を強調しています。
図 4 成功率/損失変化曲線
GeRM は、動的適応パス プランニングの創発能力を実証します。動画にあるように、四足ロボットは初期位置では視野が限られており、移動方向を判断することが困難です。障害物を避けるために、ランダムに左折を選択します。
その後、誤った視覚入力に遭遇した後、ロボットは、元の視野の外側にある正しいターゲットと位置を合わせるために大幅な再方向付けを実行しました。その後、目的地に向かって進み、最終的にその使命を完了します。
このような軌跡はトレーニング データ セットの分布に属さないことに注意してください。これは、シーンのコンテキストにおける動的な適応パス プランニングに対する GeRM の新しい機能、つまり、視覚に基づいて意思決定を行い、将来のパスを計画し、必要に応じて次のステップを変更する機能を示しています。
以上がMoEでサブミッション99個を制覇しよう!浙江大学などが新たな総合ロボット戦略GeRMを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール
