強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える
大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。
目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?
- 論文リンク: https://arxiv.org/pdf/2207.04429.pdf
- コードリンク: https://github.com/blazejosinski/lm_nav
LM-Nav モデルの概要
では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?
1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。
## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。
3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。
視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。
は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。
命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。
実験結果
定性的評価
図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。
図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。
図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。
曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。
特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。
定量的評価
表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。
以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
