Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。

Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。

王林

Jan 11, 2024 pm 10:36 PM

ai電車

スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、Google DeepMind も最新の身体化されたインテリジェンスの結果を発表しました。

そして 3 連発 :

まず、意思決定スピードの向上に重点を置いた新モデル, let ロボットの動作速度 (オリジナル Robotics Transformer との比較) は 14% 向上しました。高速でありながら品質は低下せず、精度も 10.6% 向上しました。

次に、一般化機能に特化した新しいフレームワークがあり、ロボットの動作軌跡プロンプトを作成し、それを実行させることができます。これまでに見たことのない 41 のタスクに直面し、63% の成功率を達成しました。

Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。この配列を過小評価しないでください。

以前の 29% と比較すると、改善はかなり大きいです。。ついに登場した

ロボットデータ収集システムこれは一度に 20 台のロボットを管理でき、現在その活動から 77,000 件の実験データを収集しています。これらは Google のより良い取り組みに役立ちます。その後のトレーニングの仕事。

Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。それでは、これら 3 つの結果は具体的には何でしょうか?一つずつ見ていきましょう。

ロボットを日常化するための最初のステップ: 目に見えないタスクを直接実行できる

Google は、現実世界に真に参入できるロボットを実現するには、2 つの基本的な課題を達成する必要があると指摘しました。解決しました。

1. 新しいタスクを推進する能力

2. 意思決定速度の向上

この 3 部構成のシリーズの最初の 2 つの成果は、主に次の 2 つの領域の改善です。すべては Google の基本ロボットモデル Robotics Transformer

(略して RT)

に基づいて構築されています。まずは最初の

RT-Trajectory を見てみましょう。これはロボットの一般化に役立ちます。人間にとって、テーブルの掃除などの作業はわかりやすいですが、ロボットにはよくわかりません。

しかし幸いなことに、この命令をさまざまな方法で伝えることができ、実際の物理的な動作を実行できるようになります。

一般的に、従来の方法は、タスクを特定のアクションにマッピングし、ロボットアームにそれを完了させることです。たとえば、テーブルを拭く作業は、「クランプを閉じる、テーブルに移動する」に分解できます。左に移動し、左にクランプを閉じます。「右に移動」。

明らかに、この方法の一般化能力は非常に貧弱です。

ここで、Google が新たに提案した RT-Trajectory は、視覚的な合図を提供することでロボットにタスクを完了するよう教えます。

Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。具体的には、RT-Trajectory によって制御されるロボットは、トレーニング中に 2D 軌道強化データを追加します。

これらの軌跡は、ルートやキーポイントを含む RGB 画像として表示され、ロボットがタスクの実行を学習する際に、低レベルではあるが非常に役立つヒントを提供します。

このモデルを使用すると、これまでに見たことのないタスクを実行するロボットの成功率が直接 1 倍に増加しました

(Google の基本的なロボットモデル RT-2 と比較して、29%= > 63%)

。さらに言及する価値があるのは、RT-Trajectory がさまざまな方法で軌道を作成できることです。）＃＃＃引き起こす。

#日常ロボット化の第 2 ステップ: 意思決定のスピードが速くなければなりません

汎化能力が向上した後は、意思決定に集中します。スピードを出すこと。

Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。 Google の RT モデルは Transformer アーキテクチャを使用しています。Transformer は強力ですが、二次複雑さを持つ Attendance モジュールに大きく依存しています。

したがって、RT モデルへの入力が 2 倍になると (たとえば、ロボットに高解像度のセンサーを装備することで)

、その処理に必要な計算リソースは 4 倍になります。意思決定が大幅に遅くなります。

Google は、ロボットの速度を向上させるために、基本モデル Robotics Transformer で

SARA-RT

を開発しました。

SARA-RT は、新しいモデル微調整方法を使用して、元の RT モデルをより効率的にします。

この手法は Google では「アップトレーニング」と呼ばれており、その主な機能は 元の 2 次複雑度を線形複雑度に変換することです。同時に処理を維持することです。品質。

SARA-RT を数十億のパラメーターを持つ RT-2 モデルに適用すると、後者はさまざまなタスクでより高速な演算速度とより高い精度を達成できます。

SARA-RT は、費用のかかる事前トレーニングなしで Transformer を高速化する ユニバーサル メソッドを提供するため、十分に推進できることにも言及する価値があります。

データが足りませんか?独自に作成する

最後に、ロボットが人間によって割り当てられたタスクをよりよく理解できるようにするために、Google はデータから開始し、収集システムである AutoRT を直接構築しました。

このシステムは、大規模モデル (LLM および VLM を含む) とロボット制御モデル (RT) を組み合わせて、現実のさまざまなタスクを実行するようにロボットに継続的に命令します。データを生成および収集するタスク。

具体的なプロセスは次のとおりです。

ロボットを環境に「自由に」接触させ、ターゲットに近づけます。

次に、カメラと VLM モデルを使用して、特定のアイテムを含む目の前のシーンを説明します。

次に、LLM はこの情報を使用して、いくつかの異なるタスクを生成します。

ロボットは生成後すぐに実行されるわけではないことに注意してください。代わりに、LLM を使用して フィルタ どのタスクが独立して完了できるか、どのタスクが人間を必要とするかが決まります。リモコン、そしてどれそれは単に完了することができません。

「ポテトチップスの袋を開ける」ことは、2 つのロボットアーム (デフォルトでは 1 つだけ) が必要なため、実行できません。

このスクリーニングタスクが完了すると、ロボットは実際にそれを実行できるようになります。

最後に、AutoRT システムはデータ収集を完了し、多様性評価を実行します。

レポートによると、AutoRT は一度に最大 20 台のロボットを調整でき、7 か月以内に 6,650 の固有タスクを含む合計 77,000 のテストデータが収集されました。

最後に、このシステムに関して、Google は セキュリティ も重視しています。

結局のところ、AutoRT の収集タスクは現実世界に影響を与えるため、「安全ガードレール」が不可欠です。

具体的には、基本安全コードは、ロボットのタスクスクリーニングを実行する LLM によって提供されており、部分的にはアイザックアシモフのロボット工学の 3 原則 (何よりもまず「ロボット」は人間に危害を加えてはなりません) に影響を受けています。

2 番目の要件は、ロボットが人間、動物、鋭利な物体、または電化製品が関与するタスクを試みてはいけないということです。

しかし、これだけでは十分ではありません。

そこで、AutoRT も装備されています。従来のロボット工学に見られる実用的な安全対策は何層にもわたっています。

たとえば、関節にかかる力が所定の閾値を超えるとロボットは自動的に停止し、すべての動作は人間の視界内にある物理的なスイッチで制御できます。

Google の最新の結果について詳しく知りたいですか?

良いニュースです。ただし、RT-Trajectory にはオンラインペーパーしかありません。、残りは次のとおりですコードと論文は一緒にリリースされており、皆さんもぜひチェックしてみてください ~

One More Thing

Google ロボットといえば、RT- 2（この記事のすべての結果も）.

このモデルは、54 人の Google 研究者によって 7 か月間構築され、今年 7 月末に発表されました。 .

埋め込みビジュアルテキストマルチモーダル大規模モデル VLM は、「人間の音声」を理解できるだけでなく、「人間の音声」について推論し、1 ステップでは実行できないいくつかのタスクを実行することもできます。ライオン、クジラ、恐竜の3つのプラスチックのおもちゃから情報を抽出。「絶滅した動物」を正確に拾えるのはすごい。

#汎化能力を獲得意思決定のスピードはわずか 5 か月強です。ロボットの急速な進歩にはため息をつかずにはいられません。ロボットが実際にどのくらいの速さで何千もの家庭に浸透するのか想像できません。

以上がGoogle の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。