ホームページ > 記事 > テクノロジー周辺機器 > 基本モデルとロボット開発の道筋を明らかにするレビュー
ロボットは、本来の意味を変えることなく、特にスマートテクノロジーと組み合わせることで無限の可能性を秘めたテクノロジーです。最近、革新的なアプリケーションを備えたいくつかの大規模モデルが、ロボットのインテリジェント ハブとなり、ロボットが世界を認識して理解し、意思決定を行い、計画を立てるのを支援すると期待されています。
最近、CMU の Yonatan Bisk 氏は、 Fei Xia 氏率いる共同チームは、ロボット工学分野における基本モデルの応用と開発を紹介するレビュー レポートを発表しました。このレポートの最初の著者は、ロボット工学と人工知能の交差点に焦点を当てて研究を行っている CMU 博士課程 4 年生の Yafei Hu です。彼と協力しているのは、基本モデルを通じて身体化されたインテリジェンスの探索に焦点を当てているクアンティング・シーです。
論文アドレス: https://arxiv.org/pdf/2312.08782.pdf
開発さまざまな環境に自律的に適応できるロボットは常に人類の夢でしたが、これは長く困難な道のりです。以前は、従来の深層学習手法を使用したロボット認識システムでは、通常、教師あり学習モデルをトレーニングするために大量のラベル付きデータが必要であり、クラウドソーシングを通じて大規模なデータセットにラベルを付けるコストは非常に高かった。
さらに、従来の教師あり学習手法の一般化能力には限界があるため、これらのモデルを特定のシナリオやタスクに展開するには、通常、これらのトレーニング済みモデルには慎重に設計されたドメイン適応が必要です。そのため、多くの場合、さらなるデータ収集と注釈の手順が必要になります。同様に、古典的なロボットの計画と制御のアプローチでは、多くの場合、世界、エージェント自身のダイナミクス、および/または他のエージェントのダイナミクスを注意深くモデリングする必要があります。これらのモデルは通常、特定の環境やタスクごとに構築され、条件が変化した場合にはモデルを再構築する必要があります。これは、クラシック モデルの移行パフォーマンスにも限界があることを示しています。
実際、多くのユースケースでは、効果的なモデルを構築するのは費用がかかりすぎるか、まったく不可能です。深層(強化)学習ベースの動作計画および制御方法はこれらの問題の軽減に役立ちますが、依然として分布の変化と汎化能力の低下に悩まされています。
汎用ロボット システムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピューター ビジョン (CV) の分野は、NLP 大規模な開発を含め、最近急速に進歩しています。言語モデル (LLM)、高忠実度の画像生成のための拡散モデル、強力なビジュアル モデル、およびゼロショット/少数ショット生成などの CV タスクのためのビジュアル言語モデル。
いわゆる「基礎モデル」は、実際には大規模な事前トレーニング モデル (LPTM) です。彼らは強力な視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも適用されており、ロボット システムにオープンワールドの認識、タスク計画、さらには動作制御機能を与えることが期待されています。ロボット工学の分野で既存の視覚および/または言語の基本モデルを使用することに加えて、一部の研究チームは、操作のための動作モデルやナビゲーションのための動作計画モデルなど、ロボットタスクの基本モデルを開発しています。これらの基本的なロボット モデルは、強力な汎用化機能を示し、さまざまなタスクや特定のソリューションにさえ適応できます。ロボットタスクに視覚/言語基本モデルを直接使用する研究者もおり、これはさまざまなロボットモジュールを単一の統一モデルに統合する可能性を示しています。
ロボット分野では視覚と言語の基本モデルが有望視されており、新たなロボット基本モデルも開発されているが、ロボット分野では依然として難しい課題が多い。解決するために。
実際の展開の観点から見ると、モデルは多くの場合、再現不可能であったり、さまざまなロボット形式に一般化できなかったり (複数の身体を備えた一般化)、環境内のどの動作が実行可能であるかを正確に理解することが困難であったりします (または許容されます)。さらに、ほとんどの研究では Transformer ベースのアーキテクチャが使用されており、オブジェクトとシーンの意味論的な認識、タスク レベルの計画、および制御に重点が置かれています。世界力学の基本モデルや記号推論を実行できる基本モデルなど、ロボット システムの他の部分はあまり研究されていません。これらには、クロスドメインの汎化機能が必要です。
最後に、より大規模な実世界のデータと、さまざまなロボット タスクをサポートする忠実度の高いシミュレーターも必要です。
このレビュー ペーパーは、ロボット工学の分野で使用される基本モデルを要約しており、基本モデルがロボット工学分野の中核的な課題の解決または軽減にどのように役立つかを理解することを目的としています。
このレビューでは、研究者が使用する「基礎モデル」という用語には、ロボティクス分野の 2 つの側面が含まれます: (1) 主にゼロショット学習とコンテキスト学習を通じて達成される、既存の主要な視覚モデルと言語モデル。 2) ロボット生成データを使用して、ロボットのタスクを解決するための基本モデルを具体的に開発および適用します。研究者らは、関連論文の基本モデルの手法を要約し、これらの論文の実験結果のメタ分析を実施しました。
##レビューの全体構成
読者を助けるために理解を深める このレビューの内容について、チームはまず準備知識のセクションを提供します
#ロボットの主なコンポーネントは、知覚、意思決定と計画、行動生成の 3 つの部分に分けることができます。
チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分類しています。
典型的なロボット システムのさまざまなモジュールが直面する 5 つの主要な課題。図 3 は、これら 5 つの課題の分類を示しています。
ロボット システムは次のような傾向があります。環境を正確に感知して理解することが困難。また、あるタスクのトレーニング結果を別のタスクに一般化する能力も欠如しているため、現実世界での有用性はさらに制限されます。さらに、ロボットのハードウェアが異なるため、モデルを異なる形式のロボットに転送することも困難です。一般化問題は、ロボットの基本モデルを使用することで部分的に解決できます。さまざまなロボットの形態への一般化など、さらなる疑問はまだ解決されていません。
データ不足
信頼性の高いロボット モデルを開発するには、大規模で高品質のデータが不可欠です。自動運転やロボットの動作軌跡など、実世界から大規模なデータセットを収集する取り組みはすでに始まっています。そして、人間のデモンストレーションからロボットのデータを収集するには費用がかかります。ただし、現実世界で十分かつ広範なデータを収集するプロセスは、タスクや環境の多様性によってさらに複雑になります。現実世界でのデータ収集にはセキュリティ上の懸念もあります。さらに、現実世界では大規模なデータを収集することは非常に困難であり、基本モデルのトレーニングに使用されるインターネット規模の画像/テキスト データを収集することはさらに困難です。
これらの課題に対処するために、多くの研究努力がシミュレートされた環境で合成データを生成することを試みてきました。これらのシミュレートされた環境は、非常に現実的な仮想世界を提供し、ロボットが現実のシナリオに近い状況でスキルを学習して適用できるようにします。ただし、シミュレートされた環境の使用にはいくつかの制限があり、特にオブジェクトの多様性の点で、学習したスキルを現実世界の状況に直接適用することが困難になります。
有望な方法は次のとおりです。共同データ収集。図 4a に示すように、さまざまな実験室環境およびロボット タイプからデータをまとめて収集します。しかし、チームは Open-X 実施形態データセットを詳しく調べたところ、利用可能なデータ タイプの点でいくつかの制限があることを発見しました。
#モデルと基本的な要件
従来の計画と制御方法では、通常、慎重に設計された環境とロボット モデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。 解決する必要がある問題が 2 つあります: (1) モデルに依存せず、適切に一般化できる戦略をどのように学習するか? (2) 古典的なモデルベースの手法を適用するために優れた世界モデルを学習するにはどうすればよいですか? タスク仕様 汎用エージェントを実現するには、タスク仕様とタスク仕様を理解することが重要な課題です。それを「ロボットの現在の世界理解に根ざしている」に翻訳します。通常、これらのタスク仕様はユーザーによって提供されますが、ユーザーはロボットの認知能力と身体能力の限界について限られた理解しか持っていません。これにより、これらのタスク仕様に対してどのようなベスト プラクティスを提供できるか、また、これらの仕様の草案作成が自然で十分に単純であるかどうかなど、多くの疑問が生じます。また、ロボットの能力の理解に基づいてタスク仕様のあいまいさを理解し、解決することも困難です。 不確実性と安全性 ロボットを現実世界に導入するには、次のような重要な課題に対処する必要があります。環境とタスクの仕様に固有の不確実性。不確実性は、情報源に応じて、認識的不確実性(知識の欠如によって引き起こされる不確実性)と偶発的不確実性(環境に固有のノイズ)に分類できます。 不確実性定量化 (UQ) のコストが高すぎるため、研究や応用が持続不可能になる可能性があり、また、下流のタスクを最適に解決できなくなる可能性もあります。基礎となるモデルが大幅にパラメータ化されすぎる性質があることを考慮すると、モデルの汎化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャの変更を最小限に抑えながらトレーニング スキームを保持する UQ メソッドを提供することが重要です。自身の行動の信頼性の高い推定値を提供し、明確に述べられたフィードバックをインテリジェントに要求できるロボットを設計することは、依然として未解決の課題です。 最近の進歩にもかかわらず、ロボットが経験から学習して戦略を微調整し、新しい環境で安全を保つ能力を確保することは依然として課題です。 この記事では、ロボットのベースモデルに関する現在の研究方法についてもまとめています。研究チームは、ロボット工学の分野で使用される基本モデルを、ロボットの基本モデルと書き換えられたコンテンツであるロボット基本モデル (RFM) の 2 つのカテゴリに分類しました。 ロボットの基本モデルとは、追加の微調整やトレーニングを行わずに、ゼロサンプル方式でロボットの視覚および言語の基本モデルを使用することを指します。基本的なロボット モデルは、ビジュアル言語の事前トレーニング初期化を通じてウォーム スタートすることも、モデルをロボット データ セットで直接トレーニングすることもできます 詳細な分類 ロボットの基本モデル このコンテンツは次のように書き換えられます。ロボットの分野で視覚と言語の基本モデルをゼロショット状況に適用します。その中には主に、VLM ゼロサンプルをロボット認識アプリケーションに導入すること、LLM のコンテキスト学習機能をタスクレベルおよびモーションレベルの計画とアクション生成に適用することが含まれます。図 6 は、いくつかの典型的な研究成果を示しています #書き直された内容は次のとおりです: ロボット基本モデル (RFM) 実際のロボットからの状態と動作のペアを含むロボット工学データセットが成長するにつれて、書き換えられるのは次のとおりです: ロボット ベース モデル (RFM) カテゴリの成功もますます高まっていますおそらく。これらのモデルは、ロボット データを使用してロボット タスクを解決するモデルをトレーニングすることを特徴としています。 研究チームは、議論の中でさまざまな種類の RFM を要約しました。 1 つ目は、単一のロボット モジュールで特定のタスクを実行できる RFM で、単一目的ロボットの基本モデルとも呼ばれます。たとえば、ロボットやモデルの低レベルの動作を制御する RFM を生成して、高レベルの動作計画を生成できる機能です。この記事では、複数のロボット モジュールでタスクを実行できる RFM、つまり、認識、制御、さらにはロボット以外のタスクも実行できるユニバーサル モデルについても紹介します。基本モデルはロボットの問題を解決するために使用されます。チャレンジの側面はどのような役割を果たしますか? 前回の記事では、ロボット工学の分野が直面する 5 つの主要な課題をリストしました。ここでは、基本モデルがこれらの課題への対処にどのように役立つかを説明します。 視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) はロボットの認識モジュールで使用できます。一方、LLM はより多用途であり、計画と制御に使用できます。書き換えられた内容は次のとおりです。 ロボット基本モデル (RFM) は、通常、計画およびアクション生成モジュールで使用されます。表 1 は、ロボット工学のさまざまな課題を解決するための基礎となるモデルをまとめたものです。 #表からわかるように、すべての基本モデルは、さまざまなロボット モジュールのタスクを適切に一般化できます。特に、LLM はタスク仕様において優れたパフォーマンスを発揮します。一方、RFM は、ほとんどの RFM がモデルフリーの手法であるため、動的モデルの課題に対処するのが得意です。ロボットの認識能力の場合、一般化能力とモデルの課題は相互に関連しています。認識モデルがすでに優れた一般化機能を備えている場合、ドメイン適応や追加の微調整のためにさらにデータを取得する必要はありません 現在の実験と評価の概要 このセクションでは、データセット、ベンチマーク、実験に関する現在の研究結果を要約します。 データセットとベンチマーク 言語と視覚のデータセットから学んだ知識だけに依存することには限界があります。いくつかの研究結果が示すように、摩擦や重量などの一部の概念は、これらのモダリティだけでは簡単に学習できません。 現在、これらの取り組みは 2 つの主な方向に分けることができます。1 つは現実世界からデータを収集し、もう 1 つはシミュレートされた世界からデータを収集して移行することです。現実世界へ。各方向には長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などが含まれます。一般的に使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などが含まれます。
#現在の手法のメタ分析 このチームのもう 1 つの主な貢献は、このレビュー レポートで言及されている論文の実験のメタ分析であり、これは次の問題を明確にするのに役立ちます: 2. モデルのトレーニングにはどのようなデータ セットまたはシミュレーターが使用されましたか?テストに使用されるロボット プラットフォームは何ですか? 3. 研究コミュニティではどのような基本モデルが使用されていますか?タスクを解決するのにどれくらい効果的ですか? 4. これらの方法の中で、どの基本モデルがより一般的に使用されますか? #表 2-7 と図 11 に分析結果を示します。
メタ分析から得られたチームの主な観察の一部: #ロボット操作タスク (マニピュレーション) に対する研究コミュニティの注目はバランスが取れていない 低レベルのアクション (低レベル制御) の探索は非常に制限されています 制御周波数が低すぎる (現在の研究方法の概要
#議論と将来の方向性
ロボットの具体化のための標準的な接地を設定するにはどうすればよいですか?
以上が基本モデルとロボット開発の道筋を明らかにするレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。