検索
ホームページテクノロジー周辺機器AI強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。

目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

#このタスクは、方向感覚が苦手な人間にとっても非常に困難です。しかし、最近の研究では、数人の学者が、事前に訓練された 3 つのモデルのみを使用してロボットを「教育」したことがわかりました。

ロボット学習の中核的な課題の 1 つは、人間の高度な指示に従ってロボットがさまざまなタスクを実行できるようにすることであることは誰もが知っています。そのためには、人間の指示を理解し、現実世界でこれらの指示を実行するためのさまざまなアクションを備えたロボットが必要です。

ナビゲーションにおけるタスクに続く指示について、これまでの研究は主に、テキストによる指示が注釈付けされた軌跡から学習することに重点を置いていました。これにより、テキストによる指示の理解が可能になる可能性がありますが、データ注釈のコストがこの技術の広範な使用を妨げています。一方で、最近の研究では、目標条件付きポリシーの自己教師ありトレーニングが堅牢なナビゲーションを学習できることが示されています。これらの手法は、ラベルのない大規模なデータセットに基づいており、ビジョンベースのコントローラーをトレーニングするために事後的に再ラベル付けされます。これらの方法は拡張性があり、汎用的で堅牢ですが、多くの場合、面倒な位置ベースまたは画像ベースのターゲット指定メカニズムの使用が必要になります。

最新の論文では、カリフォルニア大学バークレー校、Google、その他の機関の研究者らは、これら 2 つの方法の利点を組み合わせて、ユーザーの注釈なしでナビゲーション データに適用できるロボット ナビゲーション用の自己監視システムを作成することを目指しています。事前トレーニングされたモデルが自然言語命令を実行する機能。研究者はこれらのモデルを使用して、ロボットにタスクを伝達する「インターフェイス」を構築します。このシステムは、事前トレーニングされた言語モデルと視覚言語モデルの一般化機能を活用して、ロボット システムが複雑な高レベルの命令を受け入れることができるようにします。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

    論文リンク: https://arxiv.org/pdf/2207.04429.pdf
  • コードリンク: https://github.com/blazejosinski/lm_nav

研究者らは、大規模な視覚コーパスでトレーニングされた既製の事前トレーニング済みモデルを活用できることを観察しました。および言語データセット (これらのコーパスは広く入手可能であり、ゼロショット汎化機能を示します) を使用して、特定の命令の追跡を可能にするインターフェイスを作成します。これを達成するために、研究者らは、視覚と言語のロボットに依存しない事前トレーニング済みモデルと、事前トレーニング済みナビゲーション モデルの利点を組み合わせました。具体的には、視覚ナビゲーション モデル (VNM:ViNG) を使用して、ロボットの視覚出力を環境のトポロジカルな「メンタル マップ」に作成しました。自由形式のテキスト命令が与えられると、事前トレーニングされた大規模言語モデル (LLM: GPT-3) を使用して命令が一連のテキスト形式の特徴点にデコードされます。次に、視覚言語モデル (VLM: CLIP) を使用して、特徴点とノードの結合尤度を推論することにより、トポロジー マップ内にこれらのテキスト特徴点を確立します。次に、新しい検索アルゴリズムを使用して確率的目的関数を最大化し、ロボットの指示パスを見つけます。これは VNM によって実行されます。研究の主な貢献は、特定の命令追跡システムである大規模モデルでのナビゲーション方法 (LM Nav) です。これは、3 つの大きな独立した事前トレーニング済みモデルを組み合わせたものです。視覚的観察と物理的動作 (VNM) を活用する自己教師ありロボット制御モデル、具体的な実装環境 (VLM) を使用せずにテキスト内に画像を配置する視覚言語モデル、および大規模なモデルです。テキストを解析して翻訳する言語モデルですが、複雑な現実世界の環境で長期的な視点での指示の追跡を可能にする視覚的根拠や身体的感覚 (LLM) はありません。研究者らは、事前にトレーニングされた視覚モデルと言語モデルをターゲット条件付きコントローラーと組み合わせて、微調整を行わずにターゲット環境で実行可能な指示パスを導き出すというアイデアを初めて具体化しました。注目すべき点は、3 つのモデルすべてが大規模なデータセットでトレーニングされ、自己教師付きの目的関数を持ち、微調整なしですぐに使用できることです。LM Nav のトレーニングでは、ロボット ナビゲーション データに対する人による注釈は必要ありません。

実験では、LM Nav が新しい環境で自然言語の指示にうまく従うと同時に、きめ細かいコマンドを使用して、最長 100 メートルの複雑な郊外ナビゲーション中に経路の曖昧さを取り除くことができることを示しています。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

LM-Nav モデルの概要

では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。

視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

4. VLM の確率分布と VNM によって推論されたグラフ接続性を使用して、

は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

5. 次に、

命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

実験結果

定性的評価

図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える 図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。

図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。

曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

# 特徴点が欠落している状況。 LM-Nav は、命令内の特徴点を効果的に解析し、グラフ上で特徴点を特定し、目標へのパスを見つけることができますが、このプロセスは、特徴点が (i) 実環境に存在し、(ii) 特徴点が存在する可能性があるという前提に依存しています。 VLM によって認識されます。図 4(c) は、実行可能パスが特徴点の 1 つである消火栓に到達できず、建物の底部ではなく上部を迂回するパスをたどる状況を示しています。この失敗例は、VLM がロボットの観察から消火栓を検出できないことが原因でした。

特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。

定量的評価

表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境