ホームページ  >  記事  >  テクノロジー周辺機器  >  強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

WBOY
WBOY転載
2023-04-12 23:55:091379ブラウズ

大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。

目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

#このタスクは、方向感覚が苦手な人間にとっても非常に困難です。しかし、最近の研究では、数人の学者が、事前に訓練された 3 つのモデルのみを使用してロボットを「教育」したことがわかりました。

ロボット学習の中核的な課題の 1 つは、人間の高度な指示に従ってロボットがさまざまなタスクを実行できるようにすることであることは誰もが知っています。そのためには、人間の指示を理解し、現実世界でこれらの指示を実行するためのさまざまなアクションを備えたロボットが必要です。

ナビゲーションにおけるタスクに続く指示について、これまでの研究は主に、テキストによる指示が注釈付けされた軌跡から学習することに重点を置いていました。これにより、テキストによる指示の理解が可能になる可能性がありますが、データ注釈のコストがこの技術の広範な使用を妨げています。一方で、最近の研究では、目標条件付きポリシーの自己教師ありトレーニングが堅牢なナビゲーションを学習できることが示されています。これらの手法は、ラベルのない大規模なデータセットに基づいており、ビジョンベースのコントローラーをトレーニングするために事後的に再ラベル付けされます。これらの方法は拡張性があり、汎用的で堅牢ですが、多くの場合、面倒な位置ベースまたは画像ベースのターゲット指定メカニズムの使用が必要になります。

最新の論文では、カリフォルニア大学バークレー校、Google、その他の機関の研究者らは、これら 2 つの方法の利点を組み合わせて、ユーザーの注釈なしでナビゲーション データに適用できるロボット ナビゲーション用の自己監視システムを作成することを目指しています。事前トレーニングされたモデルが自然言語命令を実行する機能。研究者はこれらのモデルを使用して、ロボットにタスクを伝達する「インターフェイス」を構築します。このシステムは、事前トレーニングされた言語モデルと視覚言語モデルの一般化機能を活用して、ロボット システムが複雑な高レベルの命令を受け入れることができるようにします。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

    論文リンク: https://arxiv.org/pdf/2207.04429.pdf
  • コードリンク: https://github.com/blazejosinski/lm_nav

研究者らは、大規模な視覚コーパスでトレーニングされた既製の事前トレーニング済みモデルを活用できることを観察しました。および言語データセット (これらのコーパスは広く入手可能であり、ゼロショット汎化機能を示します) を使用して、特定の命令の追跡を可能にするインターフェイスを作成します。これを達成するために、研究者らは、視覚と言語のロボットに依存しない事前トレーニング済みモデルと、事前トレーニング済みナビゲーション モデルの利点を組み合わせました。具体的には、視覚ナビゲーション モデル (VNM:ViNG) を使用して、ロボットの視覚出力を環境のトポロジカルな「メンタル マップ」に作成しました。自由形式のテキスト命令が与えられると、事前トレーニングされた大規模言語モデル (LLM: GPT-3) を使用して命令が一連のテキスト形式の特徴点にデコードされます。次に、視覚言語モデル (VLM: CLIP) を使用して、特徴点とノードの結合尤度を推論することにより、トポロジー マップ内にこれらのテキスト特徴点を確立します。次に、新しい検索アルゴリズムを使用して確率的目的関数を最大化し、ロボットの指示パスを見つけます。これは VNM によって実行されます。研究の主な貢献は、特定の命令追跡システムである大規模モデルでのナビゲーション方法 (LM Nav) です。これは、3 つの大きな独立した事前トレーニング済みモデルを組み合わせたものです。視覚的観察と物理的動作 (VNM) を活用する自己教師ありロボット制御モデル、具体的な実装環境 (VLM) を使用せずにテキスト内に画像を配置する視覚言語モデル、および大規模なモデルです。テキストを解析して翻訳する言語モデルですが、複雑な現実世界の環境で長期的な視点での指示の追跡を可能にする視覚的根拠や身体的感覚 (LLM) はありません。研究者らは、事前にトレーニングされた視覚モデルと言語モデルをターゲット条件付きコントローラーと組み合わせて、微調整を行わずにターゲット環境で実行可能な指示パスを導き出すというアイデアを初めて具体化しました。注目すべき点は、3 つのモデルすべてが大規模なデータセットでトレーニングされ、自己教師付きの目的関数を持ち、微調整なしですぐに使用できることです。LM Nav のトレーニングでは、ロボット ナビゲーション データに対する人による注釈は必要ありません。

実験では、LM Nav が新しい環境で自然言語の指示にうまく従うと同時に、きめ細かいコマンドを使用して、最長 100 メートルの複雑な郊外ナビゲーション中に経路の曖昧さを取り除くことができることを示しています。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

LM-Nav モデルの概要

では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。

視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

4. VLM の確率分布と VNM によって推論されたグラフ接続性を使用して、

は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

5. 次に、

命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

実験結果

定性的評価

図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える 図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。

図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。

曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

# 特徴点が欠落している状況。 LM-Nav は、命令内の特徴点を効果的に解析し、グラフ上で特徴点を特定し、目標へのパスを見つけることができますが、このプロセスは、特徴点が (i) 実環境に存在し、(ii) 特徴点が存在する可能性があるという前提に依存しています。 VLM によって認識されます。図 4(c) は、実行可能パスが特徴点の 1 つである消火栓に到達できず、建物の底部ではなく上部を迂回するパスをたどる状況を示しています。この失敗例は、VLM がロボットの観察から消火栓を検出できないことが原因でした。

特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。

定量的評価

表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。