複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生-AI-php.cn

ホームページ

テクノロジー周辺機器

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 02, 2024 am 10:04 AM

モデル電車

ロボット学習の観点から見ると、一般的なアプローチは、特定のロボットとタスクに固有のデータセットを収集し、それをポリシーのトレーニングに使用することです。ただし、この方法を使用してゼロから学習する場合、タスクごとに十分なデータを収集する必要があり、結果として得られるポリシーの一般化能力は通常不十分です。

「原則として、他のロボットやタスクから収集された経験は可能な解決策を提供し、モデルがロボット制御のさまざまな問題を認識できるようになり、これらの問題によって下流のタスクでのロボットの全体的なパフォーマンスが向上する可能性があります。さまざまな自然言語やコンピュータビジョンのタスクを処理できる一般的なモデルですが、ロボットの統一的な制御戦略を訓練するための「ユニバーサルロボットモデル」を構築することは依然として困難であり、異なるロボット本体の操作を含む多くの困難を伴います。センサー構成、アクションスペース、タスク仕様、環境、および計算予算。

この目標を達成するために、ロボットの観察をアクションに直接マッピングし、ゼロサンプルソリューションを通じて新しい分野や新しいロボットに一般化するというアプローチの「ロボット基本モデル」に関連するいくつかの研究結果が現れています。これらのモデルは、「ジェネラリストロボットポリシー」 (GRP) と呼ばれることが多く、さまざまなタスク、環境、ロボットシステムにわたって低レベルの視覚運動制御を実行するロボットの能力を強調します。

GNM (汎用ナビゲーションモデル) は、さまざまなロボットナビゲーションシナリオに適しています。RT-X は、言語を通じて 5 つの異なるロボット本体を操作できます。これらのモデルは確かに重要な進歩ですが、複数の制限もあります。入力観測は事前に定義されていることが多く、(単一カメラ入力ビデオストリームなど)、新しい領域に合わせて効果的に微調整することが困難です。モデル最大のバージョンは人々が使用できるものではありません (これは重要です)。

最近、カリフォルニア大学バークレー校、スタンフォード大学、カーネギーメロン大学、Google DeepMind の 18 人の研究者で構成される Octo モデルチームが、画期的な研究結果である Octo モデルを発表しました。このプロジェクトは上記の制限を効果的に克服します。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

論文タイトル: Octo: An Open-Source Generalist Robot Policy

論文アドレス: https://arxiv.org/pdf/2405.12213
オープンソースプロジェクト: https://octo-models.github.io/
彼らは、GRP が下流のロボットアプリケーションのインターフェイス多様化の問題により簡単に対処できるシステムを設計しました。

モデルの中核は、任意の入力トークン (観察とタスクに基づいて作成された) を出力トークン (その後、アクションにエンコード) にマッピングする Transformer アーキテクチャであり、このアーキテクチャは、さまざまなロボットおよびタスクのデータセットで使用できます。電車。このポリシーは、モデルに入力するトークンを変更するだけで、追加のトレーニングなしでさまざまなカメラ構成を受け入れたり、さまざまなロボットを制御したり、口頭コマンドやターゲット画像によってガイドしたりできます。

最も重要なことは、モデルは、異なるセンサー入力、動作空間、またはロボットの形態を備えた新しいロボット構成にも適応できることです。必要なのは、適切なアダプターを採用し、小さなターゲットドメインデータセットと少量のデータを使用することだけです。データを微調整するための予算を計算します。

それだけでなく、Octo はこれまでで最大のロボット操作データセット、Open X-Embodiment データセットからの 800,000 台のロボットデモンストレーションでも事前トレーニングされています。 Octo は、新しい観察およびアクション空間に合わせて効率的に微調整された初の GRP であるだけでなく、完全にオープンソースである初のジェネラリストロボット操作戦略 (トレーニングワークフロー、モデルチェックポイント、およびデータ) でもあります。チームは論文の中で、結合された Octo コンポーネントのユニークで革新的な性質も強調しました。

Octoモデル複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

オープンソースのジェネラリストロボット戦略であるOctoがどのように構築されているかを見てみましょう。全体として、Octo は、さまざまな下流のロボット工学アプリケーションや研究プロジェクトで使用できる、柔軟で幅広く適用可能なジェネラリストロボット工学戦略となるように設計されています。

アーキテクチャ

Octo のコアは、Transformer の戦略 π に基づいています。これには、入力トークナイザー、Transformer バックボーンネットワーク、および読み取りヘッドという 3 つの主要な部分が含まれています。

図 2 に示すように、入力トークナイザーの機能は、言語命令、ターゲット、および観測シーケンスをトークンに変換することであり、Transformer バックボーンはこれらのトークンを処理して埋め込みを行い、読み出しヘッドが必要な出力を取得します。つまり行動です。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

タスクと観察トークナイザー

タスク定義 (言語命令やターゲット画像など) と観察 (カメラビデオストリームなど) を一般的に使用されるトークン化された形式に変換するために、チームは目標を達成しました。トークナイザー:

言語入力の場合、最初にトークン化され、その後、事前にトレーニングされた Transformer を通じて、言語埋め込みトークンシーケンスに処理されます。具体的には、使用したモデルは t5-base (111M) です。

画像の観測とターゲットの場合、浅い畳み込みスタックを通じて処理され、一連の平坦化されたタイルに分割されます。

最後に、学習可能な位置埋め込みをタスクトークンと観察トークンに追加し、それらを特定の順序で配置することによって、Transformer の入力シーケンスが構築されます。

Transformer バックボーンと読み出しヘッド

入力を統合トークンシーケンスに処理した後、処理のために Transformer に渡すことができます。これは、観察とアクションシーケンスに基づいて Transformer ベースのポリシーをトレーニングするという以前の研究作業に似ています。

Octo のアテンションモードはブロックごとのマスキングです。観察トークンは、因果関係に従って、同じまたは前のタイムステップからのトークンとタスクトークンにのみ注意を払うことができます。存在しない観測値に対応するトークンは完全にマスクされます (言語命令のないデータセットなど)。このモジュール設計により、微調整フェーズ中に観察やタスクを簡単に追加または削除できます。

これらの入力トークンモジュールに加えて、チームは学習された読み出しトークンも挿入しました。読み出しトークンは、以前の観察トークンとタスクトークンに注意を払いますが、観察トークンやタスクトークンには注意を払いません。したがって、読み出しトークンは内部埋め込みの読み取りと処理のみが可能ですが、内部埋め込みに影響を与えることはできません。読み出しトークンは BERT の [CLS] トークンと同様に機能し、これまでの一連の観測を埋め込んだコンパクトなベクトルとして機能します。読み取りトークンの埋め込みには、拡散処理を実装した軽量の「アクションヘッダー」が使用されます。このアクションヘッダーは、複数の連続するアクションの「チャンク」を予測します。

この設計により、ユーザーはダウンストリームの微調整中に、新しいタスクと観測入力またはアクション出力ヘッダーをモデルに柔軟に追加できます。新しいタスク、観測値、または損失関数をダウンストリームに追加する場合、Transformer の事前トレーニングされた重みを全体として保持し、新しい位置埋め込み、新しい軽量エンコーダー、または仕様パラメーターの変更により必要な新しいヘッダーのみを追加できます。これは、画像入力が追加または削除された場合、またはタスク仕様が変更された場合に、事前トレーニング済みモデルの多数のコンポーネントの再初期化または再トレーニングが必要だった以前のアーキテクチャとは異なります。

Octo を真の「ジェネラリスト」モデルにするためには、この柔軟性が非常に重要です。Octo を微調整できれば、トレーニング前の段階で考えられるロボットのセンサーとアクションの構成をすべてカバーすることは不可能であるためです。チューニングステージその入力と出力により、ロボット工学コミュニティにとって多用途のツールになります。さらに、標準の Transformer バックボーンを使用したり、ビジュアルエンコーダと MLP 出力ヘッドを融合した以前のモデル設計では、モデル入力のタイプと順序が固定されていました。対照的に、Octo の観測やタスクを切り替える場合、モデルの大部分を再初期化する必要はありません。

トレーニングデータ

チームは、Open X-Embodiment から 25 個のデータセットの混合データセットを取得しました。図 3 にデータセットの構成を示します。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

トレーニングの目的とトレーニングハードウェア構成の詳細については、元の論文を参照してください。

モデルのチェックポイントとコード

ここからがポイントです！チームは Octo の論文をリリースしただけでなく、以下を含むすべてのリソースを完全にオープンソース化しました:

事前トレーニングされた Octo チェックポイント。これには、2,700 万個のパラメータを持つ Octo-Small と 9,300 万個のパラメータを持つ Octo-Base が含まれます。
JAX に基づいた Octo モデルの微調整スクリプト。
JAX に基づいて、Open X-Embodiment データセットで Octo を事前トレーニングするためのモデル事前トレーニングワークフロー。 Open X-Embodiment データ用のデータローダー。JAX および PyTorch と互換性があります。

実験

チームはまた、実験を通じてOctoの実証分析を実施し、基本的なロボットモデルとしてのパフォーマンスを多次元で評価しました:

Octoを複数のロボットの制御に直接使用できますか?体を動かし、言語とターゲットタスクを解決しますか？
Octo の重みは、新しいタスクやロボットのデータ効率の高い微調整をサポートする優れた初期化の基礎として機能しますか? また、Octo の重みは、スクラッチからトレーニングする方法や一般的に使用される事前トレーニングされた表現よりも優れていますか?
ジェネラリストロボット戦略を構築する場合、Octo での設計上のどの決定が最も重要ですか?

図 4 は、Octo を評価するための 9 つのタスクを示しています。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

Octoを直接使用して複数のロボットを制御します

チームは、Octo、RT-1-X、およびRT-2-Xのゼロサンプル制御機能を比較しました。結果は次のとおりです。図5.

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

Octo の成功率は RT-1-X (3,500 万パラメータ) よりも 29% 高いことがわかります。 WidowX と RT-1 Robot の評価では、Octo のパフォーマンスは 550 億のパラメーターを備えた RT-2-X のパフォーマンスと同等です。

さらに、RT-1-X と RT-2-X は言語コマンドのみをサポートしますが、Octo はターゲット画像の条件付きもサポートします。チームはまた、WidowX タスクでは、言語に条件付けした場合よりもターゲット画像に条件付けした方が成功率が 25% 高いことも発見しました。これは、ターゲット画像がタスクの完了に関するより多くの情報を提供するためである可能性があります。

Octo はデータを効率的に使用して新しいフィールドに適応できます

表 1 は、データ効率の高い微調整の実験結果を示しています。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

Octo を微調整すると、最初からトレーニングしたり、事前トレーニングされた VC-1 重みを使用して事前トレーニングしたりするよりも良い結果が得られることがわかります。 6 つの評価設定全体で、2 位のベースラインに対する Octo の平均アドバンテージは 52% です。

そして、これらすべての評価タスクで、Octo を微調整するときに使用されたレシピとハイパーパラメーターはすべて同じであったことにも言及しなければなりません。これは、チームが非常に優れたデフォルト構成を見つけたことを示しています。

ジェネラリストロボットポリシートレーニングのための設計上の決定

上記の結果は、Octoが実際にゼロショットマルチロボットコントローラーとして使用でき、ポリシー微調整の初期化ベースとしても使用できることを示しています。。次に、チームは、さまざまな設計上の決定が Octo 戦略のパフォーマンスに与える影響を分析しました。具体的には、モデルのアーキテクチャ、トレーニングデータ、トレーニングの目的、モデルのサイズといった側面に焦点を当てています。これを行うために、彼らはアブレーション研究を実施しました。

表 2 は、モデルのアーキテクチャ、トレーニングデータ、トレーニング目標に関するアブレーション研究の結果を示しています。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

図 6 は、ゼロサンプルの成功率に対するモデルサイズの影響を示しています。モデルが大きいほど、視覚的なシーンの認識能力が優れていることがわかります。

複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生

全体的に、Octo のコンポーネントの有効性は証明されています。

以上が複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

Openai GPT-IMAGE-1 APIを使用して画像を生成および編集する方法Apr 27, 2025 am 09:16 AM

Openaiの最新のマルチモーダルモデルであるGPT-Image-1は、ChatGPT内およびAPIを介して画像生成に革命をもたらします。この記事では、その機能、使用法、アプリケーションについて説明します。目次 GPT-Image-1の理解 GPT-Image-1の重要な機能

CleanLabを使用してデータの前処理を実行する方法は？ - 分析VidhyaApr 27, 2025 am 09:15 AM

データの前処理は、機械学習を成功させるために最も重要ですが、実際のデータセットにはエラーが含まれることがよくあります。 CleanLabは、Pythonパッケージを使用して自信のある学習アルゴリズムを実装する効率的なソリューションを提供します。検出を自動化します

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。