基本モデルとロボット開発の道筋を明らかにするレビュー-AI-php.cn

ホームページ

テクノロジー周辺機器

基本モデルとロボット開発の道筋を明らかにするレビュー

王林

Jan 15, 2024 pm 09:24 PM

モデル電車

ロボットは、本来の意味を変えることなく、特にスマートテクノロジーと組み合わせることで無限の可能性を秘めたテクノロジーです。最近、革新的なアプリケーションを備えたいくつかの大規模モデルが、ロボットのインテリジェントハブとなり、ロボットが世界を認識して理解し、意思決定を行い、計画を立てるのを支援すると期待されています。

最近、CMU の Yonatan Bisk 氏は、 Fei Xia 氏率いる共同チームは、ロボット工学分野における基本モデルの応用と開発を紹介するレビューレポートを発表しました。このレポートの最初の著者は、ロボット工学と人工知能の交差点に焦点を当てて研究を行っている CMU 博士課程 4 年生の Yafei Hu です。彼と協力しているのは、基本モデルを通じて身体化されたインテリジェンスの探索に焦点を当てているクアンティング・シーです。

基本モデルとロボット開発の道筋を明らかにするレビュー

論文アドレス: https://arxiv.org/pdf/2312.08782.pdf

開発さまざまな環境に自律的に適応できるロボットは常に人類の夢でしたが、これは長く困難な道のりです。以前は、従来の深層学習手法を使用したロボット認識システムでは、通常、教師あり学習モデルをトレーニングするために大量のラベル付きデータが必要であり、クラウドソーシングを通じて大規模なデータセットにラベルを付けるコストは非常に高かった。

さらに、従来の教師あり学習手法の一般化能力には限界があるため、これらのモデルを特定のシナリオやタスクに展開するには、通常、これらのトレーニング済みモデルには慎重に設計されたドメイン適応が必要です。そのため、多くの場合、さらなるデータ収集と注釈の手順が必要になります。同様に、古典的なロボットの計画と制御のアプローチでは、多くの場合、世界、エージェント自身のダイナミクス、および/または他のエージェントのダイナミクスを注意深くモデリングする必要があります。これらのモデルは通常、特定の環境やタスクごとに構築され、条件が変化した場合にはモデルを再構築する必要があります。これは、クラシックモデルの移行パフォーマンスにも限界があることを示しています。

実際、多くのユースケースでは、効果的なモデルを構築するのは費用がかかりすぎるか、まったく不可能です。深層（強化）学習ベースの動作計画および制御方法はこれらの問題の軽減に役立ちますが、依然として分布の変化と汎化能力の低下に悩まされています。

汎用ロボットシステムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピュータービジョン (CV) の分野は、NLP 大規模な開発を含め、最近急速に進歩しています。言語モデル (LLM)、高忠実度の画像生成のための拡散モデル、強力なビジュアルモデル、およびゼロショット/少数ショット生成などの CV タスクのためのビジュアル言語モデル。

いわゆる「基礎モデル」は、実際には大規模な事前トレーニングモデル (LPTM) です。彼らは強力な視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも適用されており、ロボットシステムにオープンワールドの認識、タスク計画、さらには動作制御機能を与えることが期待されています。ロボット工学の分野で既存の視覚および/または言語の基本モデルを使用することに加えて、一部の研究チームは、操作のための動作モデルやナビゲーションのための動作計画モデルなど、ロボットタスクの基本モデルを開発しています。これらの基本的なロボットモデルは、強力な汎用化機能を示し、さまざまなタスクや特定のソリューションにさえ適応できます。ロボットタスクに視覚/言語基本モデルを直接使用する研究者もおり、これはさまざまなロボットモジュールを単一の統一モデルに統合する可能性を示しています。

ロボット分野では視覚と言語の基本モデルが有望視されており、新たなロボット基本モデルも開発されているが、ロボット分野では依然として難しい課題が多い。解決するために。

実際の展開の観点から見ると、モデルは多くの場合、再現不可能であったり、さまざまなロボット形式に一般化できなかったり (複数の身体を備えた一般化)、環境内のどの動作が実行可能であるかを正確に理解することが困難であったりします (または許容されます）。さらに、ほとんどの研究では Transformer ベースのアーキテクチャが使用されており、オブジェクトとシーンの意味論的な認識、タスクレベルの計画、および制御に重点が置かれています。世界力学の基本モデルや記号推論を実行できる基本モデルなど、ロボットシステムの他の部分はあまり研究されていません。これらには、クロスドメインの汎化機能が必要です。

最後に、より大規模な実世界のデータと、さまざまなロボットタスクをサポートする忠実度の高いシミュレーターも必要です。

このレビューペーパーは、ロボット工学の分野で使用される基本モデルを要約しており、基本モデルがロボット工学分野の中核的な課題の解決または軽減にどのように役立つかを理解することを目的としています。

このレビューでは、研究者が使用する「基礎モデル」という用語には、ロボティクス分野の 2 つの側面が含まれます: (1) 主にゼロショット学習とコンテキスト学習を通じて達成される、既存の主要な視覚モデルと言語モデル。 2) ロボット生成データを使用して、ロボットのタスクを解決するための基本モデルを具体的に開発および適用します。研究者らは、関連論文の基本モデルの手法を要約し、これらの論文の実験結果のメタ分析を実施しました。

基本モデルとロボット開発の道筋を明らかにするレビュー ##レビューの全体構成

予備知識

基本モデルとロボット開発の道筋を明らかにするレビュー

読者を助けるために理解を深めるこのレビューの内容について、チームはまず準備知識のセクションを提供します

最初にロボット工学の基礎知識と現在の最高のテクノロジーを紹介します。ここでは、基本モデルの時代以前にロボット工学の分野で使用されていた手法に主に焦点を当てます。ここでは簡単に説明しますが、詳細については元の論文を参照してください。

#ロボットの主なコンポーネントは、知覚、意思決定と計画、行動生成の 3 つの部分に分けることができます。

チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分類しています。

#ロボットの意思決定と計画のセクションでは、研究者は古典的な計画手法と学習ベースの計画手法を紹介しました。機械動作生成には、古典的な制御手法と学習ベースの制御手法もあります。
次に、チームは基本モデルを紹介し、主に NLP と CV の分野に焦点を当てます。関連するモデルには、LLM、VLM、ビジュアル基本モデル、テキスト条件付き画像が含まれます。モデルを生成します。
ロボット工学分野が直面する課題

典型的なロボットシステムのさまざまなモジュールが直面する 5 つの主要な課題。図 3 は、これら 5 つの課題の分類を示しています。

#一般化

基本モデルとロボット開発の道筋を明らかにするレビュー

ロボットシステムは次のような傾向があります。環境を正確に感知して理解することが困難。また、あるタスクのトレーニング結果を別のタスクに一般化する能力も欠如しているため、現実世界での有用性はさらに制限されます。さらに、ロボットのハードウェアが異なるため、モデルを異なる形式のロボットに転送することも困難です。一般化問題は、ロボットの基本モデルを使用することで部分的に解決できます。さまざまなロボットの形態への一般化など、さらなる疑問はまだ解決されていません。

データ不足

信頼性の高いロボットモデルを開発するには、大規模で高品質のデータが不可欠です。自動運転やロボットの動作軌跡など、実世界から大規模なデータセットを収集する取り組みはすでに始まっています。そして、人間のデモンストレーションからロボットのデータを収集するには費用がかかります。ただし、現実世界で十分かつ広範なデータを収集するプロセスは、タスクや環境の多様性によってさらに複雑になります。現実世界でのデータ収集にはセキュリティ上の懸念もあります。さらに、現実世界では大規模なデータを収集することは非常に困難であり、基本モデルのトレーニングに使用されるインターネット規模の画像/テキストデータを収集することはさらに困難です。

これらの課題に対処するために、多くの研究努力がシミュレートされた環境で合成データを生成することを試みてきました。これらのシミュレートされた環境は、非常に現実的な仮想世界を提供し、ロボットが現実のシナリオに近い状況でスキルを学習して適用できるようにします。ただし、シミュレートされた環境の使用にはいくつかの制限があり、特にオブジェクトの多様性の点で、学習したスキルを現実世界の状況に直接適用することが困難になります。

有望な方法は次のとおりです。共同データ収集。図 4a に示すように、さまざまな実験室環境およびロボットタイプからデータをまとめて収集します。しかし、チームは Open-X 実施形態データセットを詳しく調べたところ、利用可能なデータタイプの点でいくつかの制限があることを発見しました。

#モデルと基本的な要件

従来の計画と制御方法では、通常、慎重に設計された環境とロボットモデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。

解決する必要がある問題が 2 つあります: (1) モデルに依存せず、適切に一般化できる戦略をどのように学習するか? (2) 古典的なモデルベースの手法を適用するために優れた世界モデルを学習するにはどうすればよいですか?

タスク仕様

汎用エージェントを実現するには、タスク仕様とタスク仕様を理解することが重要な課題です。それを「ロボットの現在の世界理解に根ざしている」に翻訳します。通常、これらのタスク仕様はユーザーによって提供されますが、ユーザーはロボットの認知能力と身体能力の限界について限られた理解しか持っていません。これにより、これらのタスク仕様に対してどのようなベストプラクティスを提供できるか、また、これらの仕様の草案作成が自然で十分に単純であるかどうかなど、多くの疑問が生じます。また、ロボットの能力の理解に基づいてタスク仕様のあいまいさを理解し、解決することも困難です。

不確実性と安全性

ロボットを現実世界に導入するには、次のような重要な課題に対処する必要があります。環境とタスクの仕様に固有の不確実性。不確実性は、情報源に応じて、認識的不確実性（知識の欠如によって引き起こされる不確実性）と偶発的不確実性（環境に固有のノイズ）に分類できます。

不確実性定量化 (UQ) のコストが高すぎるため、研究や応用が持続不可能になる可能性があり、また、下流のタスクを最適に解決できなくなる可能性もあります。基礎となるモデルが大幅にパラメータ化されすぎる性質があることを考慮すると、モデルの汎化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャの変更を最小限に抑えながらトレーニングスキームを保持する UQ メソッドを提供することが重要です。自身の行動の信頼性の高い推定値を提供し、明確に述べられたフィードバックをインテリジェントに要求できるロボットを設計することは、依然として未解決の課題です。

最近の進歩にもかかわらず、ロボットが経験から学習して戦略を微調整し、新しい環境で安全を保つ能力を確保することは依然として課題です。

現在の研究方法の概要

この記事では、ロボットのベースモデルに関する現在の研究方法についてもまとめています。研究チームは、ロボット工学の分野で使用される基本モデルを、ロボットの基本モデルと書き換えられたコンテンツであるロボット基本モデル (RFM) の 2 つのカテゴリに分類しました。

ロボットの基本モデルとは、追加の微調整やトレーニングを行わずに、ゼロサンプル方式でロボットの視覚および言語の基本モデルを使用することを指します。基本的なロボットモデルは、ビジュアル言語の事前トレーニング初期化を通じてウォームスタートすることも、モデルをロボットデータセットで直接トレーニングすることもできます

基本モデルとロボット開発の道筋を明らかにするレビュー

詳細な分類

ロボットの基本モデル

このコンテンツは次のように書き換えられます。ロボットの分野で視覚と言語の基本モデルをゼロショット状況に適用します。その中には主に、VLM ゼロサンプルをロボット認識アプリケーションに導入すること、LLM のコンテキスト学習機能をタスクレベルおよびモーションレベルの計画とアクション生成に適用することが含まれます。図 6 は、いくつかの典型的な研究成果を示しています

基本モデルとロボット開発の道筋を明らかにするレビュー

#書き直された内容は次のとおりです: ロボット基本モデル (RFM)

基本モデルとロボット開発の道筋を明らかにするレビュー

実際のロボットからの状態と動作のペアを含むロボット工学データセットが成長するにつれて、書き換えられるのは次のとおりです: ロボットベースモデル (RFM) カテゴリの成功もますます高まっていますおそらく。これらのモデルは、ロボットデータを使用してロボットタスクを解決するモデルをトレーニングすることを特徴としています。

研究チームは、議論の中でさまざまな種類の RFM を要約しました。 1 つ目は、単一のロボットモジュールで特定のタスクを実行できる RFM で、単一目的ロボットの基本モデルとも呼ばれます。たとえば、ロボットやモデルの低レベルの動作を制御する RFM を生成して、高レベルの動作計画を生成できる機能です。この記事では、複数のロボットモジュールでタスクを実行できる RFM、つまり、認識、制御、さらにはロボット以外のタスクも実行できるユニバーサルモデルについても紹介します。基本モデルはロボットの問題を解決するために使用されます。チャレンジの側面はどのような役割を果たしますか?

前回の記事では、ロボット工学の分野が直面する 5 つの主要な課題をリストしました。ここでは、基本モデルがこれらの課題への対処にどのように役立つかを説明します。

視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) はロボットの認識モジュールで使用できます。一方、LLM はより多用途であり、計画と制御に使用できます。書き換えられた内容は次のとおりです。ロボット基本モデル (RFM) は、通常、計画およびアクション生成モジュールで使用されます。表 1 は、ロボット工学のさまざまな課題を解決するための基礎となるモデルをまとめたものです。

#表からわかるように、すべての基本モデルは、さまざまなロボットモジュールのタスクを適切に一般化できます。特に、LLM はタスク仕様において優れたパフォーマンスを発揮します。一方、RFM は、ほとんどの RFM がモデルフリーの手法であるため、動的モデルの課題に対処するのが得意です。ロボットの認識能力の場合、一般化能力とモデルの課題は相互に関連しています。認識モデルがすでに優れた一般化機能を備えている場合、ドメイン適応や追加の微調整のためにさらにデータを取得する必要はありません

基本モデルとロボット開発の道筋を明らかにするレビュー

さらに、セキュリティに関する研究も不足しています。、これは将来の研究の重要な方向性となるでしょう。

現在の実験と評価の概要

このセクションでは、データセット、ベンチマーク、実験に関する現在の研究結果を要約します。

データセットとベンチマーク

言語と視覚のデータセットから学んだ知識だけに依存することには限界があります。いくつかの研究結果が示すように、摩擦や重量などの一部の概念は、これらのモダリティだけでは簡単に学習できません。

したがって、ロボットエージェントが世界をよりよく理解できるようにするために、研究コミュニティは言語と視覚の領域からの基本モデルを適応させるだけでなく、トレーニングと視覚の開発も進めています。大規模で多様なマルチモーダルロボットデータセット。

現在、これらの取り組みは 2 つの主な方向に分けることができます。1 つは現実世界からデータを収集し、もう 1 つはシミュレートされた世界からデータを収集して移行することです。現実世界へ。各方向には長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などが含まれます。一般的に使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などが含まれます。

#現在の手法のメタ分析

このチームのもう 1 つの主な貢献は、このレビューレポートで言及されている論文の実験のメタ分析であり、これは次の問題を明確にするのに役立ちます:

1 . 人々はどのようなタスクに取り組んでいますか?

2. モデルのトレーニングにはどのようなデータセットまたはシミュレーターが使用されましたか?テストに使用されるロボットプラットフォームは何ですか?

3. 研究コミュニティではどのような基本モデルが使用されていますか?タスクを解決するのにどれくらい効果的ですか?

4. これらの方法の中で、どの基本モデルがより一般的に使用されますか?

#表 2-7 と図 11 に分析結果を示します。

基本モデルとロボット開発の道筋を明らかにするレビュー

基本モデルとロボット開発の道筋を明らかにするレビューメタ分析から得られたチームの主な観察の一部:

#ロボット操作タスク (マニピュレーション) に対する研究コミュニティの注目はバランスが取れていない

#一般化と堅牢性を改善する必要がある

低レベルのアクション (低レベル制御) の探索は非常に制限されています

制御周波数が低すぎる (

統一されたテストベンチマーク (メトリクス) とテストプラットフォーム (シミュレーションまたはハードウェア) が欠如しているため、比較が非常に困難になります。

#議論と将来の方向性

チームは、まだ解決する必要があるいくつかの課題と、議論する価値のある研究の方向性をまとめました。

ロボットの具体化のための標準的な接地を設定するにはどうすればよいですか?

安全性と不確実性?
エンドツーエンドのアプローチとモジュール型のアプローチには互換性がないのでしょうか?
#具体化された身体的変化への適応
能力 #世界モデル(ワールドモデル) 方式か、モデルに依存しない方式か?
新しいロボットプラットフォームと多感覚情報
学び続ける
標準化と再現性

以上が基本モデルとロボット開発の道筋を明らかにするレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ChatGPTのプラグイン機能が使えない！エラー時の対処法を解説May 14, 2025 am 01:56 AM

chatgptプラグインは使用できませんか？このガイドは、あなたがあなたの問題を解決するのに役立ちます！ ChatGPTプラグインが利用できない、または突然失敗する状況に遭遇したことがありますか？ ChatGPTプラグインは、ユーザーエクスペリエンスを強化するための強力なツールですが、失敗することもあります。この記事では、ChatGPTプラグインが適切に機能し、対応するソリューションを提供できない理由を詳細に分析します。ユーザーのセットアップチェックからサーバーのトラブルシューティングまで、さまざまなトラブルシューティングソリューションをカバーして、プラグインを使用して毎日のタスクを完了するのに役立ちます。 Openai Deep Research、Openaiがリリースした最新のAIエージェント。詳細については、⬇️をクリックしてください [ChatGpt] Openai Deep Research詳細な説明：

ChatGPTが文字数指定を守らない？その対処法を徹底解説！May 14, 2025 am 01:54 AM

ChatGPTを使って文章を作成する際、文字数を指定したい場面があります。しかし、AIが生成する文章の長さを正確に予測することは難しく、指定した文字数に合わせるのは容易ではありません。そこで本記事では、ChatGPTで文字数を指定した文章を作成する方法を解説します。効果的なプロンプトの書き方や、目的に沿った回答を得るためのテクニックを紹介し、文字数制限に対応するコツを伝授します。さらに、ChatGPTが文字数指定を苦手とする理由や仕組みについても説明し、注意点や対策も解説します。この記事を

Pythonでのスライシング操作に関するすべてMay 14, 2025 am 01:48 AM

データサイエンスと機械学習またはソフトウェア開発のドメインであろうと、Pythonスライス操作は、最も効率的で汎用性があり、強力な操作の1つです。 Pythonスライシング構文a

ChatGPTを見積もり作成に活用する方法をわかりやすく解説！May 14, 2025 am 01:44 AM

AI技術の進化により、ビジネスの効率化が加速しています。特に注目されているのが、AIを活用した見積もり作成です。OpenAIのAIアシスタント「ChatGPT」は、見積もり作成プロセスを効率化し、精度向上に貢献します。この記事では、ChatGPTを使った見積もり作成方法を解説します。Excel VBAとの連携による効率化、システム開発プロジェクトへの具体的な適用事例、AI導入によるメリット、将来展望などを紹介します。ChatGPTで業務効率化を図り、生産性を向上させる方法を学びましょう。 Op

ChatGPT Pro(o1 Pro)とは？できることや料金、他プランとの違いを解説！May 14, 2025 am 01:40 AM

OpenAIの最新サブスクリプションプラン「ChatGPT Pro」で、高度なAI問題解決を実現！ OpenAIは2024年12月、月額200ドルの最上位プラン「ChatGPT Pro」を発表しました。本記事では、その特徴、特に「o1 proモード」の性能、そしてOpenAIの新たな取り組みについて解説します。研究者、エンジニア、高度なAI活用を目指すプロフェッショナル必見の内容です。 ChatGPT Pro：高度なAIパワーを解き放つ ChatGPT Proは、OpenAIが提供する最新鋭かつ

ChatGPTで志望動機を作成・添削する方法を解説！プロンプトも紹介May 14, 2025 am 01:29 AM

就職活動における志望動機の重要性は周知の事実ですが、その作成に苦戦する就活生も多いのではないでしょうか。本記事では、最新のAI技術であるChatGPTを活用し、効果的な志望動機作成方法を紹介します。自己分析や企業研究の重要性、AI利用上の注意点、経験・スキルと企業ニーズのマッチング方法など、志望動機完成までの具体的なステップを丁寧に解説します。この記事を通して、説得力のある志望動機を作成するスキルを習得し、就職活動の成功を目指しましょう！ OpenAIが発表した最新のAIエージェント、「Open

ChatGPTの何がすごいのか？その特徴や強みを徹底解説！May 14, 2025 am 01:26 AM

ChatGPT：驚異の自然言語処理AIとその活用法 OpenAIが開発した革新的な自然言語処理AIモデル、ChatGPT。人間と自然な対話を実現し、多様な分野で活用可能な先進ツールとして、世界中で注目を集めています。その優れた言語理解力、膨大な知識、学習能力、柔軟な運用性から、私たちの生活やビジネスに大きな変革をもたらす可能性を秘めています。本記事では、ChatGPTの主要機能と具体的な活用例を解説し、AIが拓く未来の可能性を探ります。ChatGPTの可能性と魅力を解き明かしながら、生活やビジ

【AIで画像生成】ChatGPTでビックリマンチョコ風シールの作り方・印刷方法May 14, 2025 am 01:16 AM

子供時代の思い出をリリースします！ chatgptで排他的なステッカーを作成してください！子供の頃からステッカーを集めるのを楽しんだことを覚えていますか？現在、ChatGPTの強力な画像生成機能により、スキルを描くことなくスタイルのユニークなキャラクターを簡単に作成できます！この記事では、写真やイラストをChatGptを使用してノスタルジアでいっぱいの光沢のあるステッカーに変換する方法を段階的に教えます。詳細なチップワードの例から、ステッカーの作成と印刷の手順、ソーシャルメディアで共有される創造的なアイデア、さらには著作権やポートレートの権利など、すべてを説明します。目次なぜChatGptは風の写真を作ることができるのですか？ ChatGpt画像生成に成功しました

See all articles