検索
ホームページテクノロジー周辺機器AIGoogle Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています

過去 1 年にわたり、大型モデルが次々と画期的な進歩を遂げ、ロボット研究の分野を再構築しました。

最先端の大型モデルがロボットの「頭脳」となり、ロボットは想像を超えるスピードで進化しています。

7 月、Google DeepMind は RT-2 の発売を発表しました。これは、ロボットを制御するための世界初のビジョン言語アクション (VLA) モデルです。

対話のようにコマンドを入力するだけで、大量の写真の中からスウィフトを特定し、彼女に「ハッピーウォーター」の入った瓶を渡すことができます。

Google Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています

#積極的に考えることもでき、「絶滅する動物を選ぶ」ことから、テーブルの上のプラスチック製の恐竜をつかむまで、多段階の推論の飛躍を完了します。

Google Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています

RT-2 の後、Google DeepMind は Q-Transformer を提案しました。ロボット工学の世界にも独自の Transformer があります。 Q-Transformer を使用すると、ロボットは高品質の実証データへの依存を打破し、独立した「思考」に依存して経験を蓄積することができるようになります。

リリースからわずか 2 か月後、RT-2 はロボットにとって新たな ImageNet の瞬間を迎えています。 Google DeepMind とその他の機関は、万能ロボットをトレーニングするための新しいアイデアである Open を立ち上げました。

ロボット アシスタントに「家を掃除して」や「美味しくて健康的な食事を作って」などの簡単なリクエストを与えるだけで、これらのタスクを完了できることを想像してください。人間にとってこれらの作業は単純かもしれませんが、ロボットにとっては世界を深く理解する必要があり、それは簡単ではありません。

ロボット トランスフォーマーの分野における長年の研究に基づいて、Google は最近、ロボットがより迅速かつ効率的に意思決定を行うのに役立つ AutoRT、SARA-RT、RT-Trajectory という一連のロボット研究の進歩を発表しました。彼らが置かれている環境を理解し、タスクを完了するために自分自身をより適切に導きます。

Google は、AutoRT、SARA-RT、RT-Trajectory などの研究結果の発表により、現実世界のロボットのデータ収集、速度、一般化能力の向上がもたらされると考えています。

次に、これらの重要な研究を振り返ってみましょう。

AutoRT: 大規模モデルを活用してロボットをより適切にトレーニングする

AutoRT は、大規模言語モデル (LLM) やビジュアル言語モデル (VLM) などの大規模な基本モデルとロボット制御を組み合わせます。モデル (RT-1 または RT-2) を使用して、新しい環境にロボットを展開してトレーニング データを収集できるシステムを作成します。 AutoRT は、ビデオ カメラとエンド エフェクターを備えた複数のロボットを同時にガイドして、さまざまな環境でさまざまなタスクを実行できます。

具体的には、各ロボットは、AutoRT に基づいて、視覚言語モデル (VLM) を使用して「周囲を見渡し」、その視線内の環境とオブジェクトを理解します。次に、大規模言語モデルは、「テーブルにスナックを置く」などの一連の創造的なタスクを提案し、ロボットが実行するタスクを選択する意思決定者の役割を果たします。

研究者は、現実世界の設定で AutoRT の広範な 7 か月にわたる評価を実施しました。実験により、AutoRT システムは同時に最大 20 台、合計で最大 52 台のロボットを安全に調整できることが証明されています。研究者らは、さまざまなオフィスビル内でさまざまなタスクを実行するようにロボットを誘導することで、6,650 の固有のタスクを含む 77,000 件のロボット試行にわたる多様なデータセットを収集しました。

Google Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています

上図は、AutoRT システムの動作プロセスを示しています。 (1) 自律車輪型ロボットが複数の物体がある場所を検索します。 (2) VLM はシーンとオブジェクトを LLM に記述します。 (3) LLM はロボットのさまざまな操作タスクを提案し、ロボットが単独で完了できるタスク、人間の遠隔制御が必要なタスク、完了できないタスクを決定し、選択します。 (4) ロボットは実行すべきタスクを選択し、実験データを収集し、データの多様性と新鮮さをスコアリングします。ロボットはこのプロセスを繰り返します。

AutoRT には、現実世界のアプリケーションでロボットが人間の指示を理解するために不可欠な大規模な基本モデルを活用できる可能性があります。 AutoRT は、より包括的な実験トレーニング データとより多様なデータを収集することで、ロボットの学習能力を拡張し、現実世界のロボット トレーニングに改善をもたらすことができます。

ロボットを私たちの日常生活に組み込む前に、その安全性を確保する必要があり、そのためには研究者が責任を持って開発し、ロボットの安全性について徹底的な研究を行う必要があります。

AutoRT は現時点では単なるデータ収集システムですが、現実世界における自律ロボットの初期段階と考えてください。安全ガードレールが特徴で、そのうちの 1 つは、ロボットが LLM ベースの決定を下す際に従うべき基本ルールを提供する、安全に焦点を当てた一連の合図ワードです。

これらのルールは、アイザック アシモフのロボット工学の 3 原則から部分的にインスピレーションを得ており、その中で最も重要なのは、ロボットが「人間に危害を加えてはいけない」ということです。安全規則では、ロボットが人間、動物、鋭利な物体、または電気製品が関与する作業を試みないことも求められています。

プロンプトワードに取り組むだけでは、実際のアプリケーションにおけるロボットの安全性を完全に保証することはできません。したがって、AutoRT システムには、ロボット工学の古典的な設計である実用的な安全対策の層も含まれています。たとえば、協働ロボットは、関節にかかる力が所定のしきい値を超えた場合に自動的に停止するようにプログラムされており、すべての自律制御ロボットは、物理的な無効化スイッチを介して人間の監視者の視線内に制限できます。

SARA-RT: ロボット Transformer (RT) をより高速かつ合理化する

もう 1 つの成果である SARA-RT は、ロボット Transformer (RT) のモデルを変換できます。より効率的なバージョンに変換されます。

Google チームが開発した RT ニューラル ネットワーク アーキテクチャは、RT-2 モデルを含む最新のロボット制御システムで使用されています。最も優れた SARA-RT-2 モデルは、簡単な画像履歴が与えられた場合、RT-2 モデルよりも 10.6% 精度が高く、14% 高速です。 Googleによれば、これは品質を損なうことなくコンピューティング能力を向上させる、初めてのスケーラブルな注目メカニズムだという。

Transformer は強力ですが、計算要件によって制限される可能性があり、意思決定が遅くなります。 Transformer は主に 2 次複雑さの Attention モジュールに依存します。これは、RT モデルへの入力が 2 倍になると (たとえば、ロボットにより多くの、またはより高解像度のセンサーを装備するなど)、その入力を処理するために必要な計算リソースが 4 倍に増加し、その結果、意思決定が遅くなるということを意味します。

SARA-RT は、モデルの効率を向上させるために、新しいモデル微調整方法 (「アップトレーニング」と呼ばれます) を採用しています。アップトレーニングは二次計算量を純粋な線形計算量に変換し、計算要件を大幅に削減します。この変換により、元のモデルの速度が向上するだけでなく、品質も維持されます。

Google は、多くの研究者や実務家がこの実用的なシステムをロボット工学やその他の分野に適用することを期待しています。 SARA は、計算コストのかかる事前トレーニングを必要とせずに、Transformer を高速化するための一般的なアプローチを提供するため、このアプローチは、Transformer テクノロジーを大規模に拡張する可能性があります。 SARA-RT では、さまざまなオープンソースの線形バリアントが利用できるため、追加のコーディングは必要ありません。

SARA-RT を数十億のパラメーターを備えた SOTA RT-2 モデルに適用すると、さまざまなロボット タスクにおける意思決定の迅速化とパフォーマンスの向上が可能になります。

Google Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています

#操作タスク用の SARA-RT-2 モデル。ロボットの動きは画像とテキストによる指示に基づいて調整されます。

SARA-RT は、その強固な理論的基盤により、さまざまな Transformer モデルに適用できます。たとえば、ロボットの深度カメラからの空間データを処理する点群変換器に SARA-RT を適用すると、速度が 2 倍以上向上します。

RT-Trajectory: ロボットの一般化を支援

人間はテーブルの掃除方法を直感的に理解して学ぶことができますが、ロボットが指示を実際の物理的な動作に変換するには多くの可能な方法が必要です。

従来、ロボット アームのトレーニングは、抽象的な自然言語 (テーブルを拭く) を具体的な動作 (グリッパーを閉じる、左に移動する、右に移動する) にマッピングすることに依存しているため、モデルを新しいタスクに一般化することが困難です。対照的に、RT 軌道モデルを使用すると、RT モデルは、特定のロボットの動作 (ビデオやスケッチなど) を解釈することで、タスクが「どのように」達成されるかを理解できます。

RT 軌道モデルは、トレーニング ビデオ内のロボットの動きを説明する視覚的な輪郭を自動的に追加できます。 RT-Trajectory は、ロボット アームがタスクを実行するときに、トレーニング データセット内の各ビデオをグリッパーの 2D 軌道スケッチでオーバーレイします。これらの軌跡は、RGB 画像の形式で、モデルがロボット制御戦略を学習するための低レベルの実用的な視覚的手がかりを提供します。

トレーニング データには見られない 41 のタスクでテストしたところ、RT-Trajectory によって制御されたロボット アームのパフォーマンスは既存の SOTA RT モデルの 2 倍以上でした。タスクの成功率は 63% に達しました。 RT-2 の成功率はわずか 29% です。

このシステムは非常に多用途であるため、RT-Trajectory は必要なタスクの人間によるデモンストレーションを見て軌道を作成することもでき、さらには手描きのスケッチも受け入れることができます。さらに、いつでもさまざまなロボットプラットフォームに適応できます。

Google Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想しています左の図: 自然言語データセットのみを使用してトレーニングされた RT モデルによって制御されたロボットは、テーブルを拭くという新しいタスクを実行するときにイライラしましたが、RT 軌道によって制御されたロボットはモデルは 2D 軌跡で強化された同じデータセットでトレーニングした後、ワイピング軌跡が正常に計画され、実行されました。右: トレーニングされた RT 軌道モデルに新しいタスク (テーブルを拭く) が与えられると、人間の助けを借りて、または視覚言語モデルを使用して独自に、さまざまな方法で 2D 軌道を作成できます。

RT 軌跡は、すべてのロボット データセットに存在するが、現在十分に活用されていない豊富なロボット モーション情報を活用します。 RT-Trajectory は、新しいタスクのために効率的かつ正確に移動するロボットを作成するための新たな一歩を示すだけでなく、既存のデータセットからの知識の発見も可能にします。

以上がGoogle Deepmind は、ロボットを再発明し、大きなモデルに具現化されたインテリジェンスをもたらす未来を構想していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできます1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えています5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたH20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますOpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかAIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますGoogle Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、