注意して見てください。目の前の男性は、「緑の星を赤いブロックの間に押してください」「青いブロックを左下に移動してください」などの自然言語でロボットに指示を出し続けています。 Corner」では、ロボットはすべての入力コマンドをリアルタイムで完了できます。
1960 年代以来、ロボット工学の専門家は、ロボットに人間の「自然言語の指示」を理解させ、特定の動作を実行させることを試みてきました。
理想的には、将来のロボットは、ユーザーが自然言語で記述できる関連タスクにリアルタイムで反応するようになります。
特にオープンな人間の環境では、ユーザーは、ロボットの動作が発生したときに、「停止してアームを少し上に動かす」などの素早い修正を提供したり、ロボットの動作をカスタマイズしたりする必要がある場合があります。 「ゆっくり右に移動」を制限します。
さらに、リアルタイム言語により、人間とロボットが複雑な長期タスクで共同作業することが容易になり、人間は次のことを行うことができます。ロボットを反復的かつ対話的にガイドします。操作時には、口頭でフィードバックが行われる場合もあります。
現在の関連作業は大きく次の 3 つの部分に分けることができます:
1. ロボット本体が現実世界に存在する必要があります。 ;
2. 多数の豊富な自然言語コマンドに応答できる;
3. 対話型の実行が可能 (インタラクティブ) 言語コマンド 、つまり、ロボットはタスクの実行中に新しい自然言語命令を受け入れる必要があります。
3 番目の点については、現在のロボット分野におけるインタラクティブ開発のスピードは依然として非常に遅く、そのためロボットには「生命感」が欠けています。
最近 Google は、自然言語命令を実行する現実世界のリアルタイム インタラクティブ ロボット、および関連するデータ セットと環境を生成できるまったく新しいフレームワークを提案する論文を発表しました。ベンチマークと戦略はすべて利用可能です。
紙のリンク: https://arxiv.org/pdf/2210.06407.pdf
##プロジェクトのホームページ: https://interactive- language.github.io/数十万の言語注釈の軌跡のデータセットを通じて動作クローン作成トレーニングにより、結果として得られるポリシーは、以前の作業で達成されたものよりも桁違いに多くのコマンドを巧みに実行できます。実際の世界では、研究者らは、この方法が 87,000 の異なる自然言語文字列に対して 93.5% の成功率を示したと推定しました。
# そして、同じ戦略を人間が自然言語を介してリアルタイムで導き、広範囲にわたる正確な長距離再配置の目標を解決することができます。 「積み木で笑顔をつくろう」など
論文とともにリリースされたデータ セットには、言語タグ付きの軌跡が約 600,000 個含まれており、これは以前に利用可能なデータ セットよりも桁違いに多くなります。
対話型言語: ロボットとのリアルタイム会話
ロボットを現実世界に統合するには、オープンな自然言語を処理できることが最も重要です。学習の観点から見ると、ロボットにオープンボキャブラリー言語を学習させるのは大きな課題です。
オープン代表モデルは、小さな修正指示などを含む、多数のタスクを実行する必要があります。既存のマルチタスク学習セットアップでは、慎重に設計された模倣学習データセットや複雑な強化学習報酬関数を利用して各タスクの学習を推進しており、このように設計された事前定義セットはそれほど大きくないはずです。
したがって、オープンボキャブラリーのタスクにおける重要な質問は、実際の環境における何千もの動作をカバーするようにロボット データの収集を拡張する方法と、このすべての動作をどのように結び付けるかということです。エンドユーザーが実際に提供する可能性のある自然言語の指示はどうなるのでしょうか?
インタラクティブ言語において、Google が提案する大規模シミュレーション学習フレームワークの鍵は、大規模な複数言語の条件付きロボット デモンストレーション データ セットを作成するスケーラビリティです。
すべてのスキルが定義されてから各スキルの厳選されたデモンストレーションが収集された以前の設定とは異なり、研究者はシーンのリセットなしで複数のロボットで作業を続けました。) または低レベルのスキルのセグメンテーション。
失敗したデータ (テーブルからブロックを落とすなど) を含むすべてのデータは、テキストと組み合わせる前に HindSight 言語の再ラベル付けプロセスを通過する必要があります。
このプロセスでは、アノテーターは長いロボットのビデオを見て、できるだけ多くの動作を特定し、各動作の開始時間と終了時間をマークし、無制限の形式の自然言語を使用して説明する必要があります。それぞれの断片。
最も重要なことは、以前の一連のブートストラップと比較して、トレーニングに使用されるすべてのスキルが、研究者によって事前に設定されるのではなく、データ自体からボトムアップで明らかにされることです。明確な。
研究者らは、学習方法とアーキテクチャを可能な限りシンプルにすることを意図して作成しました。ロボット ポリシー ネットワークは、5 Hz ビデオを組み合わせたクロスアテンション トランスフォーマーです。 5 Hz のロボットの動きにマッピングすると、ターゲットは補助損失なしで標準の教師あり学習動作を使用して複製されます。
テスト中、新しい自然言語コマンドは、最大 5 Hz の速度で音声テキスト変換を介してポリシー ネットワークに送信できます。
オープンソース ベンチマーク
アノテーション プロセス中に、研究者らは、言語コマンドの自然なデモンストレーションの 440,000 を超える実際のロボット実行と 180,000 を超えるシミュレートされたロボット実行を含む言語テーブル データセットを収集しました。 、およびデモンストレーション中にロボットが実行する一連のアクション。
これは、現在最大の言語条件付きロボット デモンストレーション データ セットでもあり、直接的には一桁改善されています。
Language-Table は、モデルの選択や、さまざまな方法で訓練されたロボットの命令実行能力の評価に使用できるシミュレーション学習ベンチマークを開始しました。
リアルタイム言語行動学習
研究者らは実験で、ロボットがリアルタイムで入力された自然言語命令に従うことができる場合に特に強力であることを発見しました。
研究者らは、プロジェクトのウェブサイトで、ユーザーが自然言語のみを使用して長期的な問題を解決するために複雑な長期シーケンスを通じてロボットを誘導できることを実証しており、これは正確な協調制御の目標である。
たとえば、テーブル上にたくさんのブロックがある場合、コマンドは「緑色の目でスマイリーフェイスを作成する」または「それらを配置する」のようになります。すべて縦線「上」など。
ロボットは公開語彙言語に従うように訓練されているため、実験ではロボットが「ゆっくり右に」など、さまざまな言葉による修正に反応することが確認されました。 」。
最後に、研究者らは、ロボットのデータ収集をより効率的にするなど、リアルタイム言語の利点を調査しました。人間のオペレーターが音声言語を使用して 4 台のロボットを制御できる可能性があります。将来的には、各ロボットにアノテーターを装備することなく、ロボットのデータ収集を拡張できます。
結論
プロジェクトは現在、デスクトップ上のオブジェクトの固定セットに限定されていますが、対話型言語の実験結果は、大規模な模倣学習が実際に本物の学習を生み出すことができることを最初に示しています。時間インタラクティブ 自由形式のエンドユーザー コマンドに従うことができるボット。
物理ロボットのリアルタイム言語制御技術の進歩を促進するために、研究者たちは Language-Table をオープンソース化しました。これは、現在最大の実世界のロボット デモンストレーション データ セットに基づいています。言語条件に関連するシミュレーション ベンチマークとしても使用できます。
研究者らは、このデータセットの役割がロボット制御の分野に限定されるだけでなく、言語や動作の条件付きビデオ予測、ロボットビデオの研究にも使用できる可能性があると考えています。条件付き言語モデリングは、より広範な機械学習のコンテキストにおける他の多くの興味深い活発な問題を研究するための新しい出発点を提供します。
以上がGoogle ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

メモ帳++7.3.1
使いやすく無料のコードエディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









