ロボティクス: 基本モデルの進捗はどうですか?-AI-php.cn

ホームページ

テクノロジー周辺機器

ロボティクス: 基本モデルの進捗はどうですか?

王林

Jan 09, 2024 am 11:58 AM

ロボットは、特にインテリジェントテクノロジーのサポートにより、無限の可能性を秘めたテクノロジーです。最近、革新的なアプリケーションを備えたいくつかの大規模モデルは、ロボットが世界を認識して理解し、意思決定や計画を立てるのに役立つ、ロボットの知的頭脳の可能性があると考えられています。最近、CMU の Yonatan Bisk 氏と Google DeepMind の Fei Xia 氏が率いる共同チームが、ロボット工学分野における基本モデルの応用と開発を紹介するレビューレポートを発表しました。

#人類は、さまざまな環境に自律的に適応できるロボットの開発を常に夢見てきました。しかし、この夢の実現は長くて困難な道のりです。

これまで、ロボット認識システムでは通常、従来の深層学習手法が使用されており、教師あり学習モデルをトレーニングするには大量のラベル付きデータが必要でした。ただし、クラウドソーシングを通じて大規模なデータセットにラベルを付けるには、非常にコストがかかります。

ロボティクス: 基本モデルの進捗はどうですか?

さらに、従来の教師あり学習手法には汎化機能に一定の制限があります。これらのトレーニング済みモデルを特定のシナリオやタスクに適用するには、通常、ドメイン適応テクノロジの慎重な設計が必要であり、多くの場合、さらなるデータ収集と注釈が必要になります。同様に、従来のロボットの計画および制御方法でも、環境、エージェント自体、および他のエージェントのダイナミクスを正確にモデリングする必要があります。これらのモデルは特定の環境やタスク用に構築されることが多く、条件が変化するとモデルを再構築する必要があります。これは、古典的なモデルの伝達性能にも限界があることを示しています。

実際、多くのユースケースでは、効果的なモデルを構築するのは費用がかかりすぎるか、まったく不可能です。深層（強化）学習ベースの動作計画および制御方法はこれらの問題の軽減に役立ちますが、依然として分布の変化と汎化能力の低下に悩まされています。

汎用ロボットシステムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピュータービジョン (CV) の分野は、NLP 大規模な開発を含め、最近急速に進歩しています。言語モデル (LLM)、高忠実度の画像生成のための拡散モデル、強力なビジュアルモデル、およびゼロショット/少数ショット生成などの CV タスクのためのビジュアル言語モデル。

いわゆる「基礎モデル」は、実際には大規模な事前トレーニングモデル (LPTM) です。彼らは強力な視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも適用されており、ロボットシステムにオープンワールドの認識、タスク計画、さらには動作制御機能を与えることが期待されています。ロボット工学の分野で既存の視覚および/または言語の基本モデルを使用することに加えて、一部の研究チームは、操作のための動作モデルやナビゲーションのための動作計画モデルなど、ロボットタスクの基本モデルを開発しています。これらの基本的なロボットモデルは、強力な汎用化機能を示し、さまざまなタスクや特定のソリューションにさえ適応できます。

ロボットタスクに視覚/言語基本モデルを直接使用する研究者もおり、これはさまざまなロボットモジュールを単一の統一モデルに統合する可能性を示しています。

ロボット分野では視覚と言語の基本モデルが有望視されており、新たなロボット基本モデルも開発されているが、ロボット分野では依然として難しい課題が多い。解決するために。

実際の展開の観点から見ると、モデルは多くの場合、再現不可能であったり、さまざまなロボット形式に一般化できなかったり (複数の身体を備えた一般化)、環境内のどの動作が実行可能であるかを正確に理解することが困難であったりします (または許容されます）。さらに、ほとんどの研究では Transformer ベースのアーキテクチャが使用されており、オブジェクトやシーンの意味論的な認識、タスクレベルの計画、および制御に重点が置かれています。世界力学の基本モデルや記号推論を実行できる基本モデルなど、ロボットシステムの他の部分はあまり研究されていません。これらには、クロスドメインの汎化機能が必要です。

最後に、より大規模な実世界のデータと、さまざまなロボットタスクをサポートする忠実度の高いシミュレーターも必要です。

このレビューペーパーは、ロボット工学の分野で使用される基本モデルを要約しており、基本モデルがロボット工学分野の中核的な課題の解決または軽減にどのように役立つかを理解することを目的としています。

ロボティクス: 基本モデルの進捗はどうですか?

論文アドレス: https://arxiv.org/pdf/2312.08782.pdf

#このレビューでは、研究者によって使用される「ロボット工学の基礎モデル」という用語は、次の 2 つの側面をカバーしています: (1) ロボット工学の既存の (主要な) モデル主にゼロショット学習とコンテキスト学習による、視覚および言語モデル。(2)ロボットが生成したデータを使用して、ロボットのタスクを解決するためのロボットの基本モデルを具体的に開発および利用します。彼らは、ロボットの基本モデルに使用された関連論文の手法を要約し、これらの論文の実験結果に対してメタ分析を実行しました。

ロボティクス: 基本モデルの進捗はどうですか?

図 1 は、このレビューレポートの主なコンポーネントを示しています。

ロボティクス: 基本モデルの進捗はどうですか?

# 図 2 は、このレビューの全体的な構造を示しています。

予備知識

読者がこのレビューの内容をよりよく理解できるように、チームは最初に A を提供します。準備知識コンテンツのセクション。

彼らはまず、ロボット工学の基礎と現在の最高のテクノロジーを紹介します。ここでは、基本モデルの時代以前にロボット工学の分野で使用されていた手法に主に焦点を当てます。ここでは簡単に説明しますが、詳細については元の論文を参照してください。

チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分けています。
ロボットの意思決定と計画のセクションでは、研究者らは古典的な計画手法と学習ベースの計画手法を紹介しました。
機械動作生成には、古典的な制御手法と学習ベースの制御手法もあります。
次に、チームは主に NLP と CV の分野に焦点を当て、LLM、VLM、ビジュアルベーシックモデル、テキスト条件付き画像生成モデルなどの基本モデルを紹介します。

ロボット工学の課題

このセクションでは、典型的なロボットシステムのさまざまなモジュールが直面する 5 つの主要な課題を要約します。図 3 は、これら 5 つの課題の分類を示しています。

ロボティクス: 基本モデルの進捗はどうですか?

#1. 一般論

ロボットシステムは、多くの場合、正確に感知し、その環境を理解すること。また、あるタスクのトレーニング結果を別のタスクに一般化する能力も欠如しているため、現実世界での有用性はさらに制限されます。さらに、ロボットのハードウェアが異なるため、モデルを異なる形式のロボットに転送することも困難です。一般化問題は、ロボットの基本モデルを使用することで部分的に解決できます。

さまざまなロボット形式への一般化というさらなる問題は、まだ答えられていません。

2. データ不足

信頼性の高いロボットモデルを開発するには、大規模で高品質なデータが不可欠です。自動化された値、ロボットの動作軌跡などを含む大規模なデータセットを現実世界から収集する取り組みがすでに始まっています。そして、人間のデモンストレーションからロボットのデータを収集するには費用がかかります。また、タスクや環境が多様であるため、現実世界で十分かつ広範なデータを収集するプロセスはさらに複雑になります。さらに、現実世界でのデータ収集にはセキュリティ上の懸念もあります。

これらの課題に対処するために、多くの研究努力がシミュレートされた環境で合成データを生成することを試みてきました。これらのシミュレーションは非常に現実的な仮想世界を提供し、ロボットがほぼ現実のシナリオでスキルを学習して使用できるようにします。ただし、シミュレートされた環境の使用には、特にさまざまなオブジェクトの点で制限があるため、学習したスキルを現実世界の状況に直接適用することが困難になります。

さらに、現実世界では大規模なデータを収集することは非常に困難であり、これまで使われてきたインターネット規模の画像/テキストデータを収集することはさらに困難です。基本モデルをトレーニングします。

有望なアプローチの 1 つは、図 4a に示すように、さまざまな実験室環境やロボットの種類からのデータをまとめる共同データ収集です。しかし、チームは Open-X 実施形態データセットを詳しく調べたところ、利用可能なデータタイプの点でいくつかの制限があることを発見しました。

ロボティクス: 基本モデルの進捗はどうですか?

3. モデルと基本的な要件

##従来の計画および制御方法では、通常、慎重に設計された環境およびロボットモデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。

これにより、2 つの質問が生じます: (1) 適切に一般化できるモデルに依存しないポリシーを学習するにはどうすればよいですか? (2) 古典的なモデルベースの手法を適用できるように、適切な世界モデルを学習するにはどうすればよいでしょうか?

4. タスクの仕様

汎用エージェントを実現するための重要な課題は、タスクの仕様を理解し、それをロボットの現在の世界理解に基づいて行うことです。通常、これらのタスク仕様はユーザーによって提供されますが、ユーザーはロボットの認知能力と身体能力の限界について限られた理解しか持っていません。これにより、これらのタスク仕様にどのようなベストプラクティスが提供できるかだけでなく、これらの仕様の草案が自然で十分に単純であるかどうかなど、多くの疑問が生じます。また、ロボットの能力の理解に基づいてタスク仕様のあいまいさを理解し、解決することも困難です。

5. 不確実性と安全性

ロボットを現実世界に導入する場合の重要な課題は、環境とタスクの仕様に対処することです。本質的な不確実性。不確実性は、情報源に応じて、認識的不確実性（知識の欠如によって引き起こされる不確実性）と偶発的不確実性（環境に固有のノイズ）に分類できます。

不確実性定量化 (UQ) のコストが高すぎるため、研究や応用が持続不可能になる可能性があり、また、下流のタスクを最適に解決できなくなる可能性もあります。基礎となるモデルが大幅にパラメータ化されすぎる性質があることを考慮すると、モデルの汎化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャの変更を最小限に抑えながらトレーニングスキームを保持する UQ メソッドを提供することが重要です。自身の行動の信頼性の高い推定値を提供し、明確に述べられたフィードバックをインテリジェントに要求できるロボットを設計することは、依然として未解決の課題です。

最近の進歩にもかかわらず、ロボットが経験から学習して戦略を微調整し、新しい環境で安全を保つ能力を確保することは依然として課題です。

現在の研究方法の概要

このセクションでは、ロボットのベースモデルに関する現在の研究方法を要約します。研究チームは、ロボット工学の分野で使用される基本モデルを、ロボット用基本モデルとロボット基本モデル (RFM) の 2 つの主要なカテゴリに分類しました。

ロボットに使用される基本モデルとは、主にロボットの視覚および言語の基本モデルをゼロサンプル方式で使用することを指します。これは、追加の微調整やトレーニングが必要ないことを意味します。ロボットベースモデルは、ビジョン言語の事前トレーニング初期化を使用してウォームスタートしたり、ロボットデータセット上でモデルを直接トレーニングしたりできます。

ロボティクス: 基本モデルの進捗はどうですか?

#図 5 に分類の詳細を示します

1. の基本モデルロボット

このセクションでは、ロボット工学の分野における基本的な視覚モデルと言語モデルのゼロサンプルアプリケーションに焦点を当てます。これには主に、LLM のコンテキスト学習機能を使用して、タスクレベルおよびモーションレベルの計画とアクション生成に VLM をゼロショット方式でロボット認識アプリケーションに導入することが含まれます。図 6 は、いくつかの代表的な研究成果を示しています。

ロボティクス: 基本モデルの進捗はどうですか?

2. ロボット基本モデル (RFM)

ロボティクス: 基本モデルの進捗はどうですか?

実際のロボットの状態と動作のペアを含むロボットデータセットが成長するにつれて、ロボット基本モデル (RFM) カテゴリも成長し、成功率がさらに高まります。そしてもっと可能性が高い。これらのモデルは、ロボットデータを使用してロボットタスクを解決するモデルをトレーニングすることを特徴としています。

このセクションでは、さまざまな種類の RFM について要約し、説明します。 1 つ目は、単一のロボットモジュールで特定のタスクを実行できる RFM であり、単一目的ロボットベースモデルとも呼ばれます。たとえば、RFM は、ロボットを制御するための低レベルのアクションを生成したり、より高レベルの動作計画を生成できるモデルを生成したりできます。

複数のロボットモジュールでタスクを実行できる RFM は、後で紹介します。これは、認識、制御、さらには非ロボットタスクも実行できるユニバーサルモデルです。

3. 基本モデルはロボット工学の課題の解決にどのように役立ちますか?

ロボット工学分野が直面する 5 つの主要な課題は上にリストされています。このセクションでは、基本モデルがこれらの課題への対処にどのように役立つかについて説明します。

視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) はロボットの認識モジュールで使用できます。一方、LLM はより多用途であり、計画と制御に使用できます。ロボット基本モデル (RFM) は通常、計画およびアクション生成モジュールで使用されます。表 1 は、ロボット工学のさまざまな課題を解決するための基礎となるモデルをまとめたものです。

ロボティクス: 基本モデルの進捗はどうですか?

表からわかるように、すべての基本モデルは、さまざまなロボットモジュールのタスクを一般化するのに優れています。 LLM はタスクの指定に特に優れています。一方、RFM は、ほとんどの RFM がモデルフリーのアプローチであるため、動的モデルの課題に対処するのが得意です。ロボットの知覚の場合、一般化能力とモデルの課題は相互に結びついています。これは、知覚モデルがすでに優れた一般化能力を備えている場合、ドメイン適応や追加の微調整を実行するためにさらにデータを取得する必要がないためです。

さらに、将来の重要な研究方向となるセキュリティ上の課題に関する研究も不足しています。

現在の実験と評価の概要

このセクションでは、データセット、ベンチマーク、実験に関する現在の研究結果を要約します。

1. データセットとベンチマーク

言語および視覚データセットから学んだ知識のみに依存することには限界があります。いくつかの研究結果が示すように、摩擦や重量などの一部の概念は、これらのモダリティだけでは簡単に学習できません。

したがって、ロボットエージェントが世界をよりよく理解できるようにするために、研究コミュニティは言語と視覚の領域からの基本モデルを適応させるだけでなく、トレーニングと視覚の開発も進めています。大規模で多様なマルチモーダルロボットデータセット。

現在、これらの取り組みは、現実世界からデータを収集することと、シミュレートされた世界からデータを収集して現実世界に移行することの 2 つの大きな方向に分かれています。それぞれの方向に長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などが含まれます。一般的に使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などがあります。

2. 現在の手法の評価分析

このチームのもう 1 つの大きな貢献は、このレビューレポートで言及されている論文に対するものです。 -分析は、著者が次の質問を明確にするのに役立ちました:

人々はどのようなタスクを解決するために研究していましたか?
モデルのトレーニングにはどのようなデータセットまたはシミュレーターが使用されましたか?テストに使用されるロボットプラットフォームは何ですか?
研究コミュニティではどのような基本モデルが使用されていますか?タスクを解決するのにどれくらい効果的ですか?
これらの方法の中で、どの基本モデルがより一般的に使用されますか?

表 2-7 と図 11 に分析結果を示します。

ロボティクス: 基本モデルの進捗はどうですか?

チームはいくつかの重要な傾向を特定しました:

研究コミュニティロボット操作タスクに対する注意の偏り

一般化能力と堅牢性を改善する必要がある
##実際に展開するには制御頻度が低すぎる
ロボットにおける統合テストベンチマークの欠如
ディスカッションと今後の方向性

チームは、解決すべきいくつかの課題と研究の方向性をまとめました。議論する価値がある:

ロボットの具体化のための標準的な根拠の設定

安全性と不確実性

エンドツーエンドのアプローチとモジュラーアプローチは互換性がありませんか?
具体化された物理的変化への適応性
世界モデルアプローチか、それともモデルに依存しないアプローチか?
新しいロボットプラットフォームと多感覚情報
継続的な学習
標準化と再現性

以上がロボティクス: 基本モデルの進捗はどうですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。