


Google の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。
スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、Google DeepMind も最新の身体化されたインテリジェンスの結果を発表しました。
そして 3 連発 :
まず、意思決定スピードの向上に重点を置いた新モデル, let ロボットの動作速度 (オリジナル Robotics Transformer との比較) は 14% 向上しました。高速でありながら品質は低下せず、精度も 10.6% 向上しました。
次に、一般化機能に特化した新しいフレームワークがあり、ロボットの動作軌跡プロンプトを作成し、それを実行させることができます。これまでに見たことのない 41 のタスクに直面し、63% の成功率を達成しました。
この配列を過小評価しないでください。
以前の 29% と比較すると、改善はかなり大きいです。。 ついに登場した
ロボット データ収集システム これは一度に 20 台のロボットを管理でき、現在その活動から 77,000 件の実験データを収集しています。これらは Google のより良い取り組みに役立ちます。その後のトレーニングの仕事。
それでは、これら 3 つの結果は具体的には何でしょうか?一つずつ見ていきましょう。
ロボットを日常化するための最初のステップ: 目に見えないタスクを直接実行できる
Google は、現実世界に真に参入できるロボットを実現するには、2 つの基本的な課題を達成する必要があると指摘しました。解決しました。
1. 新しいタスクを推進する能力
2. 意思決定速度の向上
この 3 部構成のシリーズの最初の 2 つの成果は、主に次の 2 つの領域の改善です。すべては Google の基本ロボット モデル Robotics Transformer
(略して RT)に基づいて構築されています。 まずは最初の
RT-Trajectory を見てみましょう。これはロボットの一般化に役立ちます。 人間にとって、テーブルの掃除などの作業はわかりやすいですが、ロボットにはよくわかりません。
しかし幸いなことに、この命令をさまざまな方法で伝えることができ、実際の物理的な動作を実行できるようになります。
一般的に、従来の方法は、タスクを特定のアクションにマッピングし、ロボット アームにそれを完了させることです。たとえば、テーブルを拭く作業は、「クランプを閉じる、テーブルに移動する」に分解できます。左に移動し、左にクランプを閉じます。「右に移動」。
明らかに、この方法の一般化能力は非常に貧弱です。
ここで、Google が新たに提案した RT-Trajectory は、視覚的な合図を提供することでロボットにタスクを完了するよう教えます。
具体的には、RT-Trajectory によって制御されるロボットは、トレーニング中に 2D 軌道強化データを追加します。
これらの軌跡は、ルートやキーポイントを含む RGB 画像として表示され、ロボットがタスクの実行を学習する際に、低レベルではあるが非常に役立つヒントを提供します。
このモデルを使用すると、これまでに見たことのないタスクを実行するロボットの成功率が直接 1 倍に増加しました
(Google の基本的なロボット モデル RT-2 と比較して、29%= > 63%)。 さらに言及する価値があるのは、RT-Trajectory がさまざまな方法で軌道を作成できることです。 ) ### 引き起こす。
#日常ロボット化の第 2 ステップ: 意思決定のスピードが速くなければなりません
Google の RT モデルは Transformer アーキテクチャを使用しています。Transformer は強力ですが、二次複雑さを持つ Attendance モジュールに大きく依存しています。
したがって、RT モデルへの入力が 2 倍になると (たとえば、ロボットに高解像度のセンサーを装備することで)
、その処理に必要な計算リソースは 4 倍になります。意思決定が大幅に遅くなります。 Google は、ロボットの速度を向上させるために、基本モデル Robotics Transformer で SARA-RTを開発しました。
SARA-RT は、新しいモデル微調整方法を使用して、元の RT モデルをより効率的にします。
この手法は Google では「アップ トレーニング」と呼ばれており、その主な機能は 元の 2 次複雑度を線形複雑度に変換することです。同時に処理を維持することです。品質。
SARA-RT を数十億のパラメーターを持つ RT-2 モデルに適用すると、後者はさまざまなタスクでより高速な演算速度とより高い精度を達成できます。
SARA-RT は、費用のかかる事前トレーニングなしで Transformer を高速化する ユニバーサル メソッドを提供するため、十分に推進できることにも言及する価値があります。
データが足りませんか?独自に作成する
最後に、ロボットが人間によって割り当てられたタスクをよりよく理解できるようにするために、Google はデータから開始し、収集システムである AutoRT を直接構築しました。
このシステムは、大規模モデル (LLM および VLM を含む) とロボット制御モデル (RT) を組み合わせて、現実のさまざまなタスクを実行するようにロボットに継続的に命令します。データを生成および収集するタスク。
具体的なプロセスは次のとおりです。
ロボットを環境に「自由に」接触させ、ターゲットに近づけます。
次に、カメラと VLM モデルを使用して、特定のアイテムを含む目の前のシーンを説明します。
次に、LLM はこの情報を使用して、いくつかの異なるタスクを生成します。
ロボットは生成後すぐに実行されるわけではないことに注意してください。代わりに、LLM を使用して フィルタ どのタスクが独立して完了できるか、どのタスクが人間を必要とするかが決まります。リモコン、そしてどれ それは単に完了することができません。
「ポテトチップスの袋を開ける」ことは、2 つのロボット アーム (デフォルトでは 1 つだけ) が必要なため、実行できません。
このスクリーニング タスクが完了すると、ロボットは実際にそれを実行できるようになります。
最後に、AutoRT システムはデータ収集を完了し、多様性評価を実行します。
レポートによると、AutoRT は一度に最大 20 台のロボットを調整でき、7 か月以内に 6,650 の固有タスクを含む合計 77,000 のテスト データが収集されました。
最後に、このシステムに関して、Google は セキュリティ も重視しています。
結局のところ、AutoRT の収集タスクは現実世界に影響を与えるため、「安全ガードレール」が不可欠です。
具体的には、基本安全コードは、ロボットのタスク スクリーニングを実行する LLM によって提供されており、部分的にはアイザック アシモフのロボット工学の 3 原則 (何よりもまず「ロボット」は人間に危害を加えてはなりません) に影響を受けています。
2 番目の要件は、ロボットが人間、動物、鋭利な物体、または電化製品が関与するタスクを試みてはいけないということです。
しかし、これだけでは十分ではありません。
そこで、AutoRT も装備されています。従来のロボット工学に見られる実用的な安全対策は何層にもわたっています。
たとえば、関節にかかる力が所定の閾値を超えるとロボットは自動的に停止し、すべての動作は人間の視界内にある物理的なスイッチで制御できます。
Google の最新の結果について詳しく知りたいですか?
良いニュースです。ただし、RT-Trajectory にはオンライン ペーパーしかありません。 、残りは次のとおりです コードと論文は一緒にリリースされており、皆さんもぜひチェックしてみてください ~
One More Thing
Google ロボットといえば、RT- 2(この記事のすべての結果も).
このモデルは、54 人の Google 研究者によって 7 か月間構築され、今年 7 月末に発表されました。 .
埋め込みビジュアルテキスト マルチモーダル大規模モデル VLM は、「人間の音声」を理解できるだけでなく、「人間の音声」について推論し、1 ステップでは実行できないいくつかのタスクを実行することもできます。ライオン、クジラ、恐竜の3つのプラスチックのおもちゃから情報を抽出。「絶滅した動物」を正確に拾えるのはすごい。
#汎化能力を獲得意思決定のスピードはわずか 5 か月強です。ロボットの急速な進歩にはため息をつかずにはいられません。ロボットが実際にどのくらいの速さで何千もの家庭に浸透するのか想像できません。
以上がGoogle の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)
