Google の DeepMind は、さまざまなロボットを制御して一連のタスクを実行できる RoboCat AI モデルを開発しました。
Google の DeepMind は 6 月 26 日、同社がさまざまなロボット アームを制御して一連のタスクを実行できる RoboCat と呼ばれる人工知能モデルを開発したと発表しました。これだけでは特に目新しいことではないが、DeepMind によれば、このモデルはさまざまなタスクを解決して適応することができ、現実世界のさまざまなロボットを使用してそれを行うことができる初めてのモデルであるという。
RoboCat は、テキスト、画像、イベントを分析および処理できる別の DeepMind AI モデルである Gato からインスピレーションを受けました。 RoboCat のトレーニング データには、仮想環境の他のロボット制御モデル、人間が制御するロボット、および RoboCat 自体の以前のバージョンから派生した、シミュレートされた実際のロボットの画像と動作データが含まれます。
DeepMind の研究科学者であり、RoboCat チームの共同研究者の 1 人である Alex Lee 氏は TechCrunch との電子メールインタビューで次のように述べています。「単一の大きなモデルが複数の実世界のモデルで使用できることを示しました。このロボットは、さまざまなタスクを物理的に解決し、新しいタスクやエンティティにすぐに適応できます。」
IT House は、RoboCat を訓練するために、DeepMind の研究者は最初に人間が制御するロボット アームを使用し、それぞれのロボット アームを 100 ~ 1000 回デモンストレーションしたと述べました。タスクまたはロボットは、シミュレートされた環境または実際の環境で収集されました。たとえば、ロボット アームに歯車を拾わせたり、積み木を積んだりしてみましょう。次に、RoboCat を微調整し、各タスクに特化した「派生」モデルを作成し、平均 10,000 回練習させました。派生モデルとデモンストレーション データによって生成されたデータを活用することで、研究者は RoboCat のトレーニング データ セットを拡張し、新しいバージョンの RoboCat をトレーニングし続けています。
RoboCat の最終バージョンは、シミュレーションと現実世界の両方で、合計 253 のタスクでトレーニングされ、これらのタスクの 141 のバリエーションでテストされました。 DeepMindは、RoboCatが数時間にわたって収集された人間が制御する1,000個のデモンストレーションを観察した後、さまざまなタイプのロボットアームの操作を学習したと主張している。 RoboCat は 2 本指のアームを備えた 4 台のロボットで訓練されていますが、モデルは 3 本指のグリッパーと 2 倍の制御可能な入力を備えたより複雑なアームに適応することができました。
これにもかかわらず、DeepMind のテストでは、さまざまなタスクにおける RoboCat の成功率は、最低 13% から最高 99% まで大きく異なりました。これはトレーニング データ内の 1000 件のデモンストレーションを使用したもので、デモンストレーションの数が半分になると、それに応じて成功率も低下します。ただし、場合によっては、RoboCat はわずか 100 回のデモンストレーションを観察するだけで新しいタスクを学習できると DeepMind は主張しています。
Alex Lee は、RoboCat によって新しいタスクの解決が容易になる可能性があると考えています。 「新しいタスクのデモンストレーションを一定数行うと、RoboCat は新しいタスクに合わせて微調整し、より多くのデータを自己生成してさらに改善することができます」と彼は付け加えました。
研究チームは今後、RoboCatに新しいタスクを完了するよう教えるために必要なデモンストレーションの数を10回未満に減らすことを目指しています。
以上がGoogle の DeepMind は、さまざまなロボットを制御して一連のタスクを実行できる RoboCat AI モデルを開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









