身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場-AI-php.cn

ホームページ

テクノロジー周辺機器

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 11, 2024 pm 01:10 PM

グーグル知的研究ロボット技術

GPT-4 などの大規模な言語モデルがロボット工学との統合が進むにつれて、人工知能は徐々に現実世界に移行しつつあります。したがって、身体化された知能に関連する研究もますます注目を集めています。数ある研究プロジェクトの中でも、Googleのロボット「RT」シリーズは常に最前線にあり、最近その傾向が加速し始めている（詳細は「大規模モデルがロボットを再構築、Google Deepmindが未来の身体的知能をどう定義するか」を参照）。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

昨年 7 月、Google DeepMind は、視覚言語行動 (VLA) を制御できる世界初のロボットである RT-2 を発売しました。 . ) 相互作用モデル。会話形式で指示を与えるだけで、RT-2 は大量の写真からスウィフトを特定し、コーラの缶を彼女に届けることができます。

今、このロボットがまた進化しました。 RTロボットの最新バージョンは「RT-H」と呼ばれ、複雑なタスクを単純な言語命令に分解し、その命令をロボットの動作に変換することで、タスク実行の精度と学習効率を向上させることができます。たとえば、「ピスタチオの瓶に蓋をする」などのタスクとシーン画像が与えられると、RT-H は視覚言語モデル (VLM) を使用して、「腕を前に動かす」などの言語動作 (動作) を予測します。「」「腕を右に回してください」といった言葉の行動をもとにロボットの行動を予測します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

#アクション階層は、ロボットタスクの実行の精度と学習効率を最適化するために重要です。この階層構造により、RT-H はさまざまなロボットタスクにおいて RT-2 よりも大幅にパフォーマンスが向上し、ロボットにより効率的な実行パスが提供されます。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

論文の詳細は次のとおりです。

論文の概要

これらの研究は通常、共通のパラダイムに従います。つまり、言語で説明された高レベルのタスク (「コーラの缶を拾う」など) に直面して、観察とタスクを組み合わせる方法を学習します。言語での説明ポリシーを低レベルのロボットアクションにマッピングします。これには大規模なマルチタスクデータセットが必要です。これらのシナリオにおける言語の利点は、類似したタスク間で共有構造をエンコードすること (たとえば、「コーラの缶を拾う」と「リンゴを拾う」) ため、タスクからアクションへのマッピングを学習するために必要なデータが削減されることです。しかし、タスクがより多様になるにつれて、各タスクを説明するために使用される言語もより多様になり（例：「コーラの缶を拾う」と「水をグラスに注ぐ」）、異なるタスク間での学習は高級言語のみで行われるようになります。構造を共有することがより困難になる

研究者は、多様なタスクを学習するために、これらのタスク間の類似点をより正確に把握することを目指しています。

彼らは、言語は高レベルのタスクを説明するだけでなく、そのタスクを完了する方法を詳細に説明できることを発見しました。この種の表現はより繊細で、特定のアクションに近いものになります。たとえば、「コーラの缶を拾う」という作業は、一連のより詳細なステップ、つまり「言語動作」に分解できます。最初に「腕を前に伸ばす」、次に「缶を掴む」、そして最後に「持ち上げる」です。腕を上に上げます。」研究者らの核となる洞察は、高レベルのタスク記述と低レベルのアクションを接続する中間層として言語アクションを使用することで、言語アクションを通じて形成されるアクション階層を構築するために使用できるということです。

このレベルのアクションを確立すると、いくつかの利点があります:

これにより、異なるタスク間で言語アクションレベルでのデータの共有が向上し、言語アクションの組み合わせとマルチタスクデータセットの一般化が強化されます。たとえば、「コップに水を注ぐ」と「コーラの缶を拾う」は意味的には異なりますが、それらの言語動作は、オブジェクトを拾うために実行されるまではまったく同じです。
言語アクションは、単に固定されたプリミティブではなく、現在のタスクとシーンの詳細に基づいた指示と視覚的観察を通じて学習されます。たとえば、「腕を前に伸ばす」という言葉は、移動の速度や方向を指定するものではなく、特定のタスクや観察に依存します。学習された言語動作のコンテキスト依存性と柔軟性により、戦略が 100% 成功しない場合でも言語動作を変更できるという新しい機能が提供されます (図 1 のオレンジ色の領域を参照)。さらに、ロボットはこうした人間の修正から学習することもできます。たとえば、「コーラの缶を拾う」というタスクを実行するときに、ロボットが事前にグリッパーを閉じている場合は、「アームを前方に長く伸ばしたままにする」ようにロボットに指示できますが、特定のシナリオでのこの種の微調整は必要ありません。人間の誘導だけが容易であり、ロボットにとっては学習が容易です。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

言語アクションの上記の利点を考慮して、Google DeepMind の研究者はエンドツーエンドのフレームワーク - RT-H を設計しました。 ( アクション階層を備えたロボットトランスフォーマー、つまりアクションレベルを使用するロボットトランスフォーマーは、このタイプのアクションレベルの学習に焦点を当てています。 RT-H は、観察と高レベルのタスクの説明を分析して現在の口頭行動指示を予測することで、詳細レベルでタスクを実行する方法を理解します。次に、これらの観察、タスク、および推定された言語アクションを使用して、RT-H は各ステップに対応するアクションを予測します。言語アクションは、特定のアクションをより正確に予測するのに役立つ追加のコンテキストをプロセスに提供します (図 1 の紫色の領域)。

さらに、彼らはロボットの固有受容から単純化された言語アクションセットを抽出する自動化手法を開発し、手動でラベルを付けることなく 2,500 を超える言語アクションの豊富なデータベースを構築しました。

RT-H のモデルアーキテクチャは、インターネットスケールの視覚データと言語データで共同トレーニングされた大規模視覚言語モデル (VLM) である RT-2 を利用しており、戦略学習の有効性。 RT-H は単一のモデルを使用して言語アクションとアクションクエリの両方を処理し、インターネット規模の広範な知識を活用してアクション階層のあらゆるレベルを強化します。

研究者らは実験で、言語アクション階層を使用すると、さまざまなタスクで RT-2 と比較して、多様なマルチタスクデータセットの処理が大幅に向上することを発見しました。パフォーマンスは 15 向上しました。 %。彼らはまた、音声動作を変更すると、同じタスクでほぼ完璧な成功率が得られることを発見し、学習された音声動作の柔軟性と状況適応性を実証しました。さらに、言語アクション介入のモデルを微調整することにより、そのパフォーマンスは SOTA 対話型模倣学習手法 (IWR など) を 50% 上回ります。最終的に、RT-H の言語アクションがシーンやオブジェクトの変化によりよく適応できることが証明され、RT-2 よりも優れた汎化パフォーマンスが示されました。

#RT-H アーキテクチャの詳細な説明

#マルチタスクデータセット全体の共有構造を効果的にキャプチャするために (高度なデータセットでは表現されません)レベルのタスクの説明)、RT-H はアクションレベルの戦略を明示的に活用する方法を学ぶことを目的としています。

具体的には、研究チームは中間言語アクション予測層をポリシー学習に導入しました。ロボットのきめ細かい動作を記述する言語アクションにより、マルチタスクデータセットから有用な情報を取得し、高パフォーマンスのポリシーを生成できます。学習したポリシーを実行するのが難しい場合には、言葉によるアクションが再び機能することがあります。これらは、特定のシナリオに関連するオンラインの人的修正のための直感的なインターフェイスを提供します。音声アクションに基づいてトレーニングされたポリシーは、人間による低レベルの修正に自然に追従し、修正データが与えられたタスクを正常に完了できます。さらに、この戦略は言語修正されたデータでトレーニングすることもでき、そのパフォーマンスをさらに向上させることができます。

#図 2 に示すように、RT-H には 2 つの主要な段階があります。まず、タスクの説明と視覚的観察に基づいて言語アクションを予測し、次に、予測された言語アクションに基づいて言語アクションを予測します。具体的なタスクや観察結果から、正確なアクションを推測します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

RT-H は VLM バックボーンネットワークを使用し、RT-2 のトレーニング手順に従ってインスタンス化します。 RT-2 と同様に、RT-H は共同トレーニングを通じてインターネット規模のデータからの自然言語と画像処理に関する広範な事前知識を活用します。この事前知識をアクション階層のすべてのレベルに組み込むために、単一のモデルが言語アクションとアクションクエリの両方を同時に学習します。

実験結果

RT-H のパフォーマンスを包括的に評価するために、研究チームは 4 つの重要な実験質問を設定しました。

Q1 (パフォーマンス): 言語を含むアクション階層により、マルチタスクデータセットでのポリシーのパフォーマンスを向上させることができますか?
Q2 (状況): RT-H によって学習された言語アクションは、タスクやシーンのコンテキストに関連していますか?
Q3 (訂正): 音声動作矯正のトレーニングは遠隔操作矯正より優れていますか?
Q4 (概要): アクション階層により、配布外設定の堅牢性を向上させることができますか?

#データセットに関して、この研究では、ランダムなオブジェクトのポーズと背景を持つ 100,000 個のデモンストレーションサンプルを含む大規模なマルチタスクデータセットを使用します。このデータセットは、次のデータセットを組み合わせています:

キッチン: RT-1 および RT-2 で使用されるデータセット。70,000 サンプルからの 6 つのセマンティックタスクカテゴリで構成されます。
多様性: 24 を超えるセマンティックタスクカテゴリを含む、より複雑なタスクで構成される新しいデータセットですが、サンプルはわずか 30,000 個です。

研究では、この結合データセットを Diverse Kitchen (DK) データセットと呼び、自動プログラムを使用して言語アクションのラベルを付けました。完全な Diverse Kitchen データセットでトレーニングされた RT-H のパフォーマンスを評価するために、研究では次の 8 つの特定のタスクを評価しました。

1) ボウルをカウンターの上に直立して置きます。

2) ピスタチオの瓶を開ける

3) ピスタチオの瓶を閉じる

4 ) ボウルを移動しますシリアルディスペンサーから離してください

5) ボウルをシリアルディスペンサーの下に置きます

6) オートミールをボウルに置きます中

7) バスケットからスプーンを取り出します

8) ディスペンサーからナプキンを取り出します

これら複雑なアクションシーケンスと高い精度が必要なため、8 つのタスクが選択されました。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

次の表に、トレーニングチェックポイントの RT-H、RT-H-Joint、および RT-2 最小 MSE を示します。 RT-H の MSE は RT-2 より約 20% 低く、RTH-Joint の MSE は RT-2 より 5 ～ 10% 低く、アクション階層が大規模マルチ環境におけるオフラインアクション予測の向上に役立つことを示しています。タスクデータセット。 RT-H (GT) はグラウンドトゥルース MSE メトリックを使用し、エンドツーエンド MSE との 40% の差を達成しています。これは、正しくラベル付けされた言語アクションがアクションを予測するための高い情報価値を持っていることを示しています。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場 # 図 4 は、RT-H オンライン評価から得られた状況に応じたアクションの例をいくつか示しています。見てわかるように、同じ言語動作でも、より高いレベルの言語動作を尊重しながら、タスクを達成するために動作が微妙に変化することがよくあります。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場図 5 に示すように、研究チームは、RT-H の言語動作にオンラインで介入することで、RT-H の柔軟性を実証しました。

#この研究では、補正の効果を分析するために比較実験も使用しました。結果は、以下の図 6 に示されています。身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

##図 7 に示すように、RT-H および RT-H-Joint はシーンの変更に対して大幅に堅牢です。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

実際には、一見異なるタスク間には共有構造があります。たとえば、これらのタスクのそれぞれでは、タスクを開始するためにいくつかのピッキング動作が必要ですが、異なるタスクにわたる言語アクションの共有構造を学習することで、RT - H は修正を行わずにピックアップフェーズを完了します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

RT-H が発話動作の予測を一般化できなくなった場合でも、通常は発話動作の修正により一般化できるため、いくつかの修正を行うだけで済みます。仕事はうまくいきます。これは、新しいタスクに関するデータ収集を拡大する口頭行動の可能性を示しています。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

以上が身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換しますApr 18, 2025 am 10:26 AM

この記事では、テキストデータを分析するための自然言語処理（NLP）の重要なツールである周波数逆文書頻度（TF-IDF）手法について説明します。 TF-IDFは、TEを重み付けすることにより、基本的なワードバッグアプローチの限界を上回ります

Langchainを使用したスマートAIエージェントの構築：実用的なガイドApr 18, 2025 am 10:18 AM

LangchainでAIエージェントの力を解き放つ：初心者向けガイド祖母にchatgptとチャットすることで人工知能の不思議を示すことを想像してみてください。 th

Mistral Large 2：Llama 3.1 405bに挑戦するのに十分強力ですか？Apr 18, 2025 am 10:16 AM

ミストラル大規模2：ミストラルAIの強力なオープンソースLLMに深く飛び込むメタAIの最近のラマ3.1ファミリーのモデルのリリースに続いて、これまでの最大のモデルのミストラルAIの発表がすぐに続きました。

安定した拡散のノイズスケジュールとは何ですか？ - 分析VidhyaApr 18, 2025 am 10:15 AM

拡散モデルのノイズスケジュールの理解：包括的なガイド AIによって生み出されたデジタルアートの見事なビジュアルに魅了されたことがあり、基礎となるメカニズムについて疑問に思ったことはありますか？重要な要素は、「ノイズスケジュール、＆Quo

GPT-4Oで会話のチャットボットを構築する方法は？ - 分析VidhyaApr 18, 2025 am 10:06 AM

GPT-4Oでコンテキストチャットボットを構築する：包括的なガイド AIとNLPの急速に進化する風景では、チャットボットは開発者と組織にとって不可欠なツールになりました。本当に魅力的でインテリジェントなチャットを作成する重要な側面

2025年にAIエージェントを構築するためのトップ7フレームワークApr 18, 2025 am 10:00 AM

この記事では、AIエージェントを構築するための7つの主要なフレームワーク、つまり目標を達成するために知覚、決定、行動する自律的なソフトウェアエンティティについて説明します。これらのエージェントは、従来の補強学習を上回り、高度な計画と理想を活用します

タイプIとタイプIIエラーの違いは何ですか？ - 分析VidhyaApr 18, 2025 am 09:48 AM

統計的仮説検定におけるタイプIおよびタイプIIエラーの理解新しい血圧薬をテストする臨床試験を想像してください。この試験では、この薬は血圧を大幅に低下させると結論付けていますが、実際にはそうではありません。これはタイプです

Sumy Libraryによる自動テキスト要約Apr 18, 2025 am 09:37 AM

Sumy：AIを搭載した要約アシスタント無限の文書をふるいにかけるのにうんざりしていませんか？強力なPythonライブラリであるSumyは、自動テキストの要約のための合理化されたソリューションを提供します。この記事では、Sumyの能力を調べて、あなたを導きます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。