検索
ホームページテクノロジー周辺機器AI大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

大型モデルの優れた性能は誰の目にも明らかであり、これらがロボットに統合されれば、ロボットの頭脳がより賢くなり、自動運転や家庭用ロボットなど、ロボティクス分野に新たな可能性をもたらすことが期待されます。 、産業用ロボット、支援ロボット、医療用ロボット、フィールドロボット、マルチロボットシステム。

事前トレーニング済みの大規模言語モデル (LLM)、大規模視覚言語モデル (VLM)、大規模音声言語モデル (ALM)、および大規模ビジュアル ナビゲーション モデル (VNM) を使用して、ロボットのさまざまなタスクをより適切に処理できます。現場で。基本モデルをロボット工学に統合することは急速に成長している分野であり、ロボット工学コミュニティは最近、認識、予測、計画、制御といった書き換えが必要なロボット工学分野でこれらの大規模モデルの使用を検討し始めています。

最近、スタンフォード大学、プリンストン大学、NVIDIA、Google DeepMind などの企業で構成される共同研究チームが、ロボット研究分野における基本モデルの開発と将来をまとめたレビューレポートを発表しました。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

  • 論文アドレス: https://arxiv.org/pdf/2312.07843.pdf

  • 書き換えられた内容は次のとおりです。 : 論文ライブラリ: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

チームメンバーの中には、私たちがよく知っている中国人の学者がたくさんいます。朱裕克、宋淑蘭、呉嘉軍、陸哲武など。

基本モデルは大規模データを使用して広範囲に事前トレーニングされており、微調整後にさまざまな下流タスクに適用できます。これらの基本モデルは、BERT、GPT-3、GPT-4、CLIP、DALL-E、PaLM-Eなどの関連モデルを含め、視覚と言語処理の分野で大きな進歩を遂げました。基本モデル、ロボット工学向けの従来の深層学習モデルは、さまざまなタスク用に収集された限られたデータセットを使用してトレーニングされます。対照的に、基本モデルは広範囲にわたる多様なデータを使用して事前トレーニングされており、自然言語処理、コンピューター ビジョン、ヘルスケアなどの他の分野での適応性、一般化、および全体的なパフォーマンスが実証されています。最終的には、この基本モデルはロボット工学の分野でもその可能性を発揮することが期待されています。図1にロボット分野における基本モデルの概要を示します。

基本モデルから知識を転送すると、タスク固有のモデルと比較してトレーニング時間とコンピューティング リソースを削減できる可能性があります。特にロボット関連の分野では、マルチモーダルベースモデルは、さまざまなセンサーから収集されたマルチモーダルな異種データを融合して整列させ、ロボットの理解と推論に必要なコンパクトな均質な表現にすることができます。学習した表現は、認識、意思決定、制御など、書き換えが必要なものを含め、自動化テクノロジー スタックのあらゆる部分で使用できます。 大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

それだけでなく、基本モデルはゼロサンプル学習機能も提供できます。これは、AI システムがサンプルや対象を絞ったトレーニングなしでタスクを実行できることを意味します。これにより、ロボットは学習した知識を新しいユースケースに一般化することができ、非構造化環境におけるロボットの適応性と柔軟性が向上します。

基本モデルをロボット システムに統合すると、ロボットの環境を認識し、環境とインタラクションする能力が向上し、書き換えが必要なコンテキスト、つまり知覚ロボット システムを実現できます。

たとえば、書き換えが必要な知覚の分野では、大規模視覚言語モデル (VLM) が視覚データとテキスト データの関連性を学習して、クロスモーダルな理解機能を備えます。これにより、サンプル画像分類、ゼロサンプルターゲット検出、3D 分類などのゼロタスクを支援します。別の例として、3D 世界での言語の基礎付け (つまり、VLM の文脈上の理解を 3D 現実世界に合わせる) は、発話を 3D 環境内の特定のオブジェクト、場所、またはアクションと関連付けることによって、ロボットの空間的ニーズを強化できます。 。

意思決定や計画の分野では、LLM と VLM が、高レベルの計画を伴うタスクの指定においてロボットを支援できることが研究でわかっています。

操作、ナビゲーション、インタラクションに関連する言語の手がかりを活用することで、ロボットはより複雑なタスクを実行できます。たとえば、模倣学習や強化学習などのロボットポリシー学習技術の場合、基本モデルにはデータ効率とコンテキスト理解を向上させる機能があるようです。特に、言語駆動型の報酬は、成形された報酬を提供することで強化学習エージェントを導くことができます。

さらに、研究者たちはすでに言語モデルを使用して戦略学習テクノロジーにフィードバックを提供しています。いくつかの研究では、VLM モデルのビジュアル質問応答 (VQA) 機能がロボット工学のユースケースに使用できることが示されています。たとえば、研究者は VLM を使用して視覚コンテンツに関連する質問に答え、ロボットがタスクを完了できるようにしました。さらに、一部の研究者は VLM を使用してデータの注釈を支援し、ビジュアル コンテンツの説明ラベルを生成します。

視覚および言語処理における基本モデルの変革的な機能にもかかわらず、現実世界のロボットタスクのための基本モデルの一般化と微調整は依然として困難です。

これらの課題には以下が含まれます:

1) データ不足: ロボットの操作、位置決め、ナビゲーションなどのタスクをサポートするインターネット規模のデータを取得する方法、およびこれらのデータを自分自身で使用する方法-教師ありトレーニング;

2) 巨大な多様性: 基盤となるモデルに必要な一般性を維持しながら、物理環境、物理的なロボット プラットフォーム、および潜在的なロボット タスクの巨大な多様性にどのように対処するか;

3) 不確実な定量的問題: インスタンスレベルの不確実性 (言語の曖昧さ、LLM の錯覚など)、分布レベルの不確実性、および分布シフト問題、特に閉ループロボットの導入によって引き起こされる分布シフト問題を解決する方法。

4) 安全性評価: 導入前、更新プロセス中、および作業プロセス中に、基本モデルに基づいてロボット システムを厳密にテストする方法。

5) リアルタイム パフォーマンス: 一部の基本モデルの長い推論時間に対処する方法 - これはロボットへの基本モデルの展開の妨げになります、および基本モデルの推論を高速化する方法 - これはオンラインでの意思決定の鍵が必要です。

このレビュー ペーパーは、ロボット工学の分野における基本モデルの現在の使用法を要約しています。研究者は現在の方法、応用、課題を調査し、これらの課題に対処するための将来の研究の方向性を提案します。また、ロボットの自律性を実現するためにベース モデルを使用する場合に存在する可能性がある潜在的なリスクも指摘しました。

ベース モデルの背景知識

ベース モデルには数十億のパラメータがあります。 、インターネットレベルの大規模データを事前トレーニングに使用します。このような大規模で複雑なモデルのトレーニングには非常に費用がかかります。データの取得、処理、管理のコストも高額になる可能性があります。そのトレーニング プロセスには、大量のコンピューティング リソースが必要であり、GPU や TPU などの専用ハードウェアの使用が必要であり、モデル トレーニング用のソフトウェアとインフラストラクチャも必要であり、これらすべてに財政的投資が必要です。さらに、ベースモデルのトレーニング時間も非常に長く、コストも高くなります。したがって、これらのモデルはプラグイン可能なモジュールとしてよく使用されます。つまり、基本モデルは大規模なカスタマイズ作業なしでさまざまなアプリケーションに統合できます。

表 1 に、一般的に使用される基本モデルの詳細を示します。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

このセクションでは、LLM、ビジュアル Transformer、VLM、具体化されたマルチモーダル言語モデル、およびビジュアル生成モデルに焦点を当てます。さらに、ベース モデルのトレーニングに使用されるさまざまなトレーニング方法も紹介されます。

最初に、トークン化、生成モデル、識別モデル、Transformer アーキテクチャ、自己回帰モデル、マスクされた自動など、関連する用語と数学的知識が紹介されます。エンコーディング、対照学習、拡散モデル。

その後、大規模言語モデル (LLM) の例と歴史的背景を紹介します。その後、ビジュアル Transformer、マルチモーダル ビジョン言語モデル (VLM)、具体化されたマルチモーダル言語モデル、ビジュアル生成モデルが強調されました。

ロボット研究

このセクションでは、ロボットの意思決定、計画、制御に焦点を当てます。この分野では、大規模言語モデル (LLM) と視覚言語モデル (VLM) の両方がロボットの機能を強化するために使用される可能性があります。たとえば、LLM はタスク仕様プロセスを容易にし、ロボットが人間から高レベルの指示を受け取って解釈できるようにします。

VLM もこの分野への貢献が期待されています。 VLM は視覚データの分析に優れています。ロボットが情報に基づいた意思決定を行い、複雑なタスクを実行するには、視覚的な理解が不可欠です。現在、ロボットは自然言語の合図を使用して、操作、ナビゲーション、インタラクションに関連するタスクを実行する能力を強化できるようになりました。

目標ベースの視覚言語政策学習 (模倣学習または強化学習による) は、基本モデルによって改善されることが期待されます。言語モデルは、ポリシー学習手法へのフィードバックも提供できます。ロボットは LLM から受け取るフィードバックに基づいて動作を最適化できるため、このフィードバック ループはロボットの意思決定能力を継続的に向上させるのに役立ちます。

このセクションでは、ロボットの意思決定の分野における LLM と VLM の応用に焦点を当てます。

このセクションは 6 つの部分に分かれています。最初の部分では、言語ベースの模倣学習と言語支援強化学習を含む、意思決定と制御のためのポリシー学習とロボットを紹介します。

2 番目の部分は、目標に基づいた言語イメージ価値学習です。

3 番目のパートでは、ロボット タスクを計画するための大規模な言語モデルの使用について紹介します。これには、言語命令によるタスクの説明と、言語モデルを使用したタスク計画用のコードの生成が含まれます。

4 番目の部分は、意思決定のための文脈学習 (ICL) です。

次に紹介するのは、ロボットトランスフォーマーです。

6 番目のパートは、ロボットのナビゲーションとオープンボキャブラリーライブラリの操作です。

表 2 は、いくつかの基本的なロボット固有のモデル、レポート モデルのサイズとアーキテクチャ、事前トレーニング タスク、推論時間、およびハードウェア セットアップを示しています。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

書き直す必要があるのは、認識です。

周囲の環境と対話するロボットは、画像、ビデオ、音声、言語などのさまざまな形式で感覚情報を受け取ります。この高次元データは、ロボットが環境を理解し、推論し、対話するために不可欠です。基本モデルは、これらの高次元の入力を、解釈と操作が容易な抽象構造化表現に変換できます。特に、マルチモーダル基本モデルにより、ロボットはさまざまな感覚からの入力を、意味論的、空間的、時間的、およびアフォーダンスの情報を含む統一された表現に統合できます。これらのマルチモーダル モデルには、クロスモーダルな相互作用が必要であり、多くの場合、一貫性と相互対応を確保するために、さまざまなモダリティの要素を調整する必要があります。たとえば、画像説明タスクでは、テキストと画像データの位置合わせが必要です。

このセクションでは、ロボットが書き換える必要があるもの、つまり基本モデルを使用してモダリティを調整することで改善できる知覚に関連する一連のタスクに焦点を当てます。視覚と言語に重点が置かれています。

このセクションは 5 つの部分に分かれており、最初はオープンボキャブラリーのターゲット検出と 3D 分類、次にオープンボキャブラリーのセマンティックセグメンテーション、次にオープンボキャブラリーの 3D シーンとターゲット表現です。次に学習されたアフォーダンス、そして最後に予測モデルです。

身体化 AI

最近、LLM が身体化 AI の分野でうまく使用できることがいくつかの研究で示されています。ここでの「身体化」とは、通常、仮想化された AI を指します。物理的なロボットの体を持つのではなく、世界のシミュレーターです。

この分野では、いくつかの興味深いフレームワーク、データセット、モデルが登場しています。特に注目すべきは、肉体を持ったエージェントを訓練するためのプラットフォームとして Minecraft ゲームを使用していることです。たとえば、Voyager は GPT-4 を使用して、Minecraft 環境を探索するエージェントをガイドします。 GPT-4 のモデル パラメーターを微調整することなく、コンテキスト プロンプト設計を通じて GPT-4 と対話できます。

強化学習は、ロボット学習の分野における重要な研究方向です。研究者は、基本モデルを使用して報酬関数を設計し、強化学習を最適化しようとしています。

ロボットが高レベルの計画を実行できるように、研究者は、基本的なモデルを使用して探索を支援してきました。さらに、一部の研究者は、思考連鎖ベースの推論およびアクション生成手法を身体化された知能に適用しようとしています

課題と今後の方向性

このセクションでは、思考連鎖ベースの推論およびアクション生成方法を身体化知能に適用しようとしています。ロボット工学の基本モデルが提供されます。チームはまた、これらの課題に対処する可能性のある将来の研究の方向性を模索する予定です。

最初の課題は、ロボットのベース モデルをトレーニングする際のデータ不足の問題を克服することです:

1. 非構造化ゲーム データとラベルのない人間のビデオを使用してロボットの学習を拡張する

2. 画像修復 (Inpainting) を使用してデータを強化する

##3. 3D 基本モデルをトレーニングする際の 3D データ不足の問題を克服する

##4. 高忠実度シミュレーションによる合成データの生成

5. データ拡張に VLM を使用する データ拡張に VLM を使用することは効果的な方法です

6. ロボットの身体的スキルはスキルの配分によって制限されます

2 番目の課題はリアルタイム パフォーマンスに関連しており、そのうちの 1 つは、キーは基礎モデルの推論時間です。

3 番目の課題には、マルチモーダル表現の制限が含まれます。

4 番目の課題は、インスタンス レベルやディストリビューション レベルなど、さまざまなレベルで不確実性を定量化する方法であり、ディストリビューションのシフトをどのように調整して対処するかという問題も伴います。

5 番目の課題には、展開前のセキュリティ テストや実行時の監視、配布外状況の検出などのセキュリティ評価が含まれます。

6 番目の課題には、ロボットの既存のベース モデルを使用するか、それとも新しいベース モデルを構築するかを選択する方法が含まれます。

7 番目の課題には、ロボットのセットアップのばらつきが大きいことが関係します。

8 番目の課題は、ロボット設定でベンチマークを実行し、再現性を確保する方法です。

研究の詳細については、元の論文を参照してください。

以上が大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
机器人学我表情的样子,让人感到一丝恐惧机器人学我表情的样子,让人感到一丝恐惧Apr 09, 2023 am 10:11 AM

​通常,机器人的主要功能是完成一些简单的操作任务,我们希望机器人可以模仿人,让能力尽可能接近人类水平。不论是小米的 CyberOne 还是特斯拉的 Optimus,人们关心的主要是其机械关节数量,控制算法和行走速度。不过在这个领域,有些人探索的方向更加脑洞大开:现在,有一种机器人把模仿真人表情做到了极致:先尝试一下自拍。从「嫌弃」到「惊讶」,都可以做到完全同步:​这个机器人名叫 Ameca,是个表情怪。除了模仿,它自己也能照镜子做很多小表情,看起来非常像真人。Ameca「假装」第一次见到镜子,首

拿破仑、孔子在线陪聊!AI聊天机器人「复活」历史名人,网友:真上头!拿破仑、孔子在线陪聊!AI聊天机器人「复活」历史名人,网友:真上头!Apr 08, 2023 pm 12:11 PM

和活生生的已故历史名人聊天是个什么感觉?近日,就有一群开发者利用语言模型,把千百年来各行各业的历史名人全部「复活」成了聊天机器人,做进了一款手机app里,起名叫「你好,历史」!开发者声称,这个与古代名人聊天的app涉及的内容几乎无所不包。比如可以:与玛丽莲·梦露聊好莱坞八卦与弗里达·卡洛讨论现代艺术问问圣诞老人他有多少只驯鹿问问科特·科本为什么自杀向穴居人学习如何生火与宇宙意识辩论生命的意义不过他们也没忘记提醒用户,这些对话是由人工智能生成的,所以不要太认真。而且每个对话都是独一无二的,你永远不

女王登基70周年,世上首个超逼真人形机器艺术家献上肖像画作,被锐评“缺少信念”女王登基70周年,世上首个超逼真人形机器艺术家献上肖像画作,被锐评“缺少信念”Apr 08, 2023 pm 08:11 PM

大数据文摘出品作者:Caleb为庆祝英国女王伊丽莎白二世登基70周年,英国也是早早就洋溢出了庆典的味道。据了解,英国将于6月2日至5日连放4天公众假期,并在期间举行多项庆祝活动。英国皇家铸币厂也在精心打造有史以来最大的硬币,直径220毫米,重15公斤,面值15000英镑,耗时近400小时打造,是该厂1100年来生产的最大硬币。这枚金币一面雕刻着代表英国女王伊丽莎白二世的符号EⅡR,周围环绕着代表英国的玫瑰、水仙、蓟和三叶草。另一面有女王骑在马背上的图案。在这么热闹的日子里,AI当然也必须来凑一凑

人类与人工智能如何建立关系人类与人工智能如何建立关系Apr 09, 2023 pm 07:41 PM

人类与人工智能相比,哪个更擅长建立关系?事实上,这项革命性的技术已经存在了很长一段时间。然而,直到最近人们才意识到人工智能对人类的重要性。人工智能利用算法模拟人类,并随着时间的推移从经验中学习的能力,为这项技术与人类建立关系开辟道路。人类如何建立人际关系作为人类,我们倾向于只与少数人建立关系。我们试图确保不需要的和不相干的人从我们的生活中消失。在将我们的关系限制在少数人的同时,我们确保与那些对我们真正重要的人建立高质量的关系。然而,同样的方法在商业用语中可能不是理想的,并可能适得其反。尽管知道这

盘点全球不错的七所机器人工程专业学校盘点全球不错的七所机器人工程专业学校Apr 08, 2023 pm 01:31 PM

有抱负的工程师应该了解世界各地著名的机器人工程学院。现在是从事机器人和工程事业的最佳时机——从人工智能到太空探索,这一领域充满了令人兴奋的创新和进步。美国劳工统计局估计,未来10年,机械工程领域的职业总体上将保持7%的稳定增长率,确保毕业生将有大量的就业机会。机器人工程专业的学生平均工资超过9万美元,无需担心还助学贷款的问题。对于那些考虑投身机器人工程领域的人来说,选择一所合适的大学是非常重要的。世界上许多顶尖的机器人工程学院都在美国,尽管国外也有一些很棒的项目。这是7所世界上最好的机器人工程学

让机器人学会咖啡拉花,得从流体力学搞起!CMU&MIT推出流体模拟平台让机器人学会咖啡拉花,得从流体力学搞起!CMU&MIT推出流体模拟平台Apr 07, 2023 pm 04:46 PM

机器人也能干咖啡师的活了!比如让它把奶泡和咖啡搅拌均匀,效果是这样的:然后上点难度,做杯拿铁,再用搅拌棒做个图案,也是轻松拿下:这些是在已被ICLR 2023接收为Spotlight的一项研究基础上做到的,他们推出了提出流体操控新基准FluidLab以及多材料可微物理引擎FluidEngine。研究团队成员分别来自CMU、达特茅斯学院、哥伦比亚大学、MIT、MIT-IBM Watson AI Lab、马萨诸塞大学阿默斯特分校。在FluidLab的加持下,未来机器人处理更多复杂场景下的流体工作也都

四足机器人学会“双腿站立下楼梯”!效率比腿式系统高83%四足机器人学会“双腿站立下楼梯”!效率比腿式系统高83%Apr 09, 2023 am 11:21 AM

​还记得那个和特斯拉飙车的机器人吗?这是瑞士苏黎世联邦理工学院衍生公司研发的与公司同名的四足轮腿式机器人——Swiss-Mile,前身是ANYmal四足机器人。距离它和特斯拉飙车还不到半年的时间,它又实现了重大升级。这次升级改进了机器人的算法,运动能力直接UP UP UP ! 可以双腿站立下楼梯:(小编内心OS:如果是我穿轮滑鞋下楼梯可能会摔个狗吃屎)楼梯爬累了,坐个电梯吧,用前脚按开电梯门:面对障碍物应对自如:它还能知道什么时候该站起来,什么时候该“趴下”,双腿直立与四足运动之间的切换更丝滑:

科学家展示世界上有史以来超小的“螃蟹”遥控步行机器人,体积比跳蚤还小科学家展示世界上有史以来超小的“螃蟹”遥控步行机器人,体积比跳蚤还小Apr 09, 2023 pm 10:41 PM

日前,美国西北大学工程师开发出有史以来最小的遥控步行机器人,它以一种小巧可爱的螃蟹形式出现。这种微小的“螃蟹”机器人宽度只有半毫米,可以弯曲、扭曲、爬行、行走、转弯甚至跳跃,无需液压或电力。IT之家了解到,相关研究成果发表在《科学・机器人》上。据介绍,这种机器人是用形状记忆合金材料所制造的,然后可以变成所需的形状,当你加热后又会变回原来的形状,而热量消失时可以再次弹回变形时的样子。据介绍,其热量是由激光所带来的。激光通过“螃蟹”加热合金,但因为它们非常小,所以热量传播非常快,这使得它们的响应速度

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン