ホームページ >テクノロジー周辺機器 >AI >「クローズドループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズドループプランニングのための新しい SOTA!

「クローズドループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズドループプランニングのための新しい SOTA!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-06-08 21:30:27586ブラウズ

中国科学院オートメーション研究所の深層強化学習チームは、Li Autoらと協力して、マルチモーダル大規模言語モデルMLLM - PlanAgentに基づく自動運転のための新しい閉ループ計画フレームワークを提案しました。この手法は、シーンの鳥瞰図とグラフベースのテキストプロンプトを入力として受け取り、マルチモーダル大規模言語モデルのマルチモーダル理解機能と常識推論機能を利用して、シーンの理解から生成までの階層的推論を実行します。水平移動と垂直移動の指示を作成し、プランナーが必要とする指示をさらに生成します。このメソッドは、大規模で困難な nuPlan ベンチマークでテストされており、実験では、PlanAgent が通常のシナリオとロングテールシナリオの両方で最先端 (SOTA) のパフォーマンスを達成することが示されています。従来の大規模言語モデル (LLM) 方式と比較して、PlanAgent に必要なシーン記述トークンの量はわずか約 1/3 です。

論文情報

論文タイトル: PlanAgent: 閉ループ車両運動計画のためのマルチモーダル大規模言語エージェント
論文発行単位: Institute of Automation、中国科学院、Li Auto、清華社北京航空宇宙大学
論文アドレス:https://arxiv.org/abs/2406.01587

1 はじめに

自動運転のコアモジュールの1つとして、目標動作計画の基本は、安全性と快適性を実現する最適な軌道を生成することです。 PDM [1] アルゴリズムなどのルールベースのアルゴリズムは、一般的なシナリオの処理ではうまく機能しますが、より複雑な運転操作 [2] を必要とするロングテールシナリオに対処するのは困難なことがよくあります。学習ベースのアルゴリズム [2、3] はロングテールの状況でオーバーフィットすることが多く、その結果、nuPlan のパフォーマンスはルールベースの手法である PDM ほど良くありません。

最近、大規模な言語モデルの開発により、自動運転計画の新たな可能性が開かれました。最近の研究の中には、大規模な言語モデルの強力な推論機能を使用して、自動運転アルゴリズムの計画および制御機能を強化しようとするものもあります。しかし、いくつかの問題が発生しました。(1) 実験環境は、実際の閉鎖環境シナリオに基づいていませんでした。(2) マップの詳細や動作ステータスを表すために多数の座標番号が使用され、必要なトークンの数が大幅に増加しました。 (3) ) 大規模な言語モデルから直接軌道点を生成しても安全性を確保することは困難である。上記の課題に対処するために、この文書では PlanAgent 方式を提案します。

2 メソッド

MLLM に基づく閉ループ計画エージェントの PlanAgent フレームワークを図 1 に示します。この論文では、自動運転における複雑な問題を解決するための 3 つのモジュールを設計しています:

シーン情報抽出モジュール(環境変換モジュール): 効率的なシーン情報表現を実現するために、レーン情報を含むマルチモーダル入力を抽出できる環境情報抽出モジュールが設計されています。
推論モジュール: シーンの理解と常識的な推論を達成するために、マルチモーダル大規模言語モデル MLLM を使用して合理的で安全なプランナーコードを生成する推論モジュールが設計されています。
リフレクションモジュール: 安全なプランニングを確保するために、シミュレーションを通じてプランナーを検証し、不合理な MLLM 提案を除外できるリフレクションメカニズムが設計されています。

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

図 1 シーン情報抽出・推論・反映モジュールを含む PlanAgent の全体フレームワーク

2.1 環境情報抽出モジュール

大規模言語モデルのプロンプトワード (プロンプト) が出力を生成品質は重要な影響を及ぼします。 MLLM の生成品質を向上させるために、シーン情報抽出モジュールはシーンコンテキスト情報を抽出し、それを鳥瞰図 (BEV) 画像とテキスト表現に変換して、MLLM の入力と一致させることができます。まず、この論文では、MLLM の地球規模のシーンを理解する能力を強化するために、シーン情報を Bird Escape (BEV) 画像に変換します。同時に、図 2 に示すように、道路情報をグラフィックで表現する必要があります。これに基づいて、主要な車両の動き情報が抽出されるため、MLLM は自身の位置に最も関連するエリアに焦点を当てることができます。

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

図 2 グラフ表現に基づくテキストプロンプトの説明

2.2 推論モジュール

大規模言語モデルの推論能力を自動運転計画プロセスにどのように導入し、常識的な推論能力を備えた計画システムを実現するかが重要な課題です。この記事で設計された方法は、現在のシーン情報と事前定義されたシステムメッセージを含むユーザーメッセージを入力として受け取り、階層的思考チェーンにおける複数回の推論を通じてインテリジェントドライバーモデル (IDM) のプランナーコードを生成できます。その結果、PlanAgent はコンテキスト学習を通じて、MLLM の強力な推論機能を自動運転計画タスクに組み込むことができます。

このうち、ユーザーメッセージには、BEVエンコーディングとグラフ表現に基づいて抽出された周囲車両の運動情報が含まれます。システムメッセージには、図 3 に示すように、タスク定義、常識知識、思考チェーンステップが含まれます。

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

図 3 システムプロンプトテンプレート

プロンプト情報を取得した後、MLLM は、シーンの理解、モーション命令、コード生成の 3 つのレベルから現在のシーンについて推論し、最終的にプランナーのコードを生成します。。 PlanAgentでは、追従車線、センターライン、制限速度、最大加速度、最大減速度のパラメータコードを生成し、IDMによりあるシーンにおける瞬間加速度を生成し、最終的に軌跡を生成します。

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

2.3 リフレクションモジュール

上記の 2 つのモジュールを通じて、MLLM のシーンの理解と推論能力が強化されます。しかし、MLLM の幻想は依然として自動運転の安全性に課題をもたらしています。この記事は、「飛びつく前によく考える」という人間の意思決定プロセスにヒントを得て、アルゴリズム設計に反映メカニズムを追加しています。 MLLM によって生成されたプランナーをシミュレートし、衝突の可能性、走行距離、快適性などの指標を通じてプランナーの運転スコアを評価します。スコアがある閾値τよりも低い場合は、MLLMが生成したプランナが不適切であることを示し、MLLMに対してプランナの再生成が要求される。

3 実験と結果

この論文では、PlanAgent のパフォーマンスを評価するために、大規模なリアルシーン用の閉ループプランニングプラットフォームである nuPlan [4] 上で閉ループプランニング実験を実施します。次のように。

3.1 主な実験

表 1 nuPlan の val14 およびテストハードベンチマークでの PlanAgent と他のアルゴリズムの比較

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

表 1 に示すように、この記事では PlanA を提案します紳士と比較してください最先端のアルゴリズムの 3 つのカテゴリと、nuPlan の 2 つのベンチマーク、val14 および test-hard でのテスト。 PlanAgent は、他の方法と比較して、競争力があり、一般化可能な結果を示します。

競合結果: 共通シナリオ val14 ベンチマークでは、PlanAgent は他のルールベース、学習ベース、および大規模言語モデルベースのメソッドよりも優れたパフォーマンスを示し、NR-CLS と R-CLS の両方のスコアで最高を達成しました。
一般化可能な結果: PDM-Closed[1] で表されるルールベースのメソッドも、planTF[2] で表される学習ベースのメソッドも、val14 とテストハードで同時に良好なパフォーマンスを発揮することはできません。これら 2 種類の方法と比較して、PlanAgent は一般的なシナリオでのパフォーマンスを確保しながら、ロングテールシナリオを克服できます。

表 2 シナリオを記述するためにさまざまなメソッドで使用されるトークンの比較

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

同時に、表 2 に示すように、PlanAgent は他の大規模なモデルベースのメソッドよりも少ないトークンを使用します。おそらく -Driver[5] または LLM-ASSIST[6] の GPT 1/3 のみが必要です。これは、PlanAgent がより少ないトークンでより効果的にシーンを記述できることを示しています。これは、クローズドソースの大規模言語モデルを使用する場合に特に重要です。

3.2 アブレーション実験

表 3 シーン抽出モジュールのさまざまな部分のアブレーション実験

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

表 4 階層的思考連鎖のさまざまな部分のアブレーション実験

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

表 3 と表 4 に示すように、この論文では、シーン情報抽出モジュールと推論モジュールのさまざまな部分でアブレーション実験を実施しました。そして実験により、個々のモジュールの有効性と必要性が証明されました。 MLLM のシーンの理解は、BEV 画像とグラフ表現を通じて強化でき、MLLM のシーンに対する推論能力は、階層的思考チェーンを通じて強化できます。

表 5 さまざまな言語モデルでの PlanAgent の実験

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

同時に、表 5 に示すように、この記事ではテストにいくつかのオープンソースの大規模言語モデルを使用します。実験結果は、テストハード NR-CLS ベンチマークで、さまざまな大規模言語モデルを使用した PlanAgent が、PDM-Closed よりもそれぞれ 4.1%、5.1%、および 6.7% 高い運転スコアを達成できることを示しています。これは、PlanAgent とさまざまなマルチモーダル大規模言語モデルとの互換性を示しています。

3.3 視覚分析

ラウンドアバウト交通シーン

PDM は外側の車線を中心線として選択し、車両は外側の車線を走行し、車両が合流するときに立ち往生します。 PlanAgent は車両が合流中であると判断し、適切な左車線変更コマンドを出力し、ロータリーの内側車線を中心線として選択する横方向のアクションを生成し、車両は内側車線を走行します。

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

交差点停止線の駐車シーン

PDMは、車追従カテゴリとして信号機カテゴリを選択しました。 PlanAgent は合理的な指示を出力し、車両追従タイプとして停止線を選択します。

4 結論

この論文では、PlanAgent と呼ばれる、自動運転用の新しい MLLM ベースの閉ループ計画フレームワークを提案します。この方法では、シーン情報抽出モジュールを導入して、BEV画像を抽出し、道路のグラフ表現に基づいて周囲の車両の運動情報を抽出します。同時に、MLLM がシーン情報を理解し、モーション命令を生成し、最終的にプランナーコードを生成するように導く、階層構造を備えた推論モジュールが提案されています。さらに、PlanAgent は人間の意思決定を模倣して反映し、軌道スコアがしきい値を下回った場合に再計画を行うことで、意思決定の安全性を高めます。マルチモーダル大規模モデルに基づく自動運転閉ループ計画エージェント PlanAgent は、nuPlan ベンチマークで閉ループ計画における SOTA パフォーマンスを達成しました。

以上が「クローズドループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズドループプランニングのための新しい SOTA!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for Token Reflection 算法 https 自动化 idm gpt prompt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：LLaVA をモジュール的に再構築します。コンポーネントを置き換えるには、1 ～ 2 個のファイルを追加するだけです。オープンソースの TinyLLaVA Factory がここにあります。次の記事：LLaVA をモジュール的に再構築します。コンポーネントを置き換えるには、1 ～ 2 個のファイルを追加するだけです。オープンソースの TinyLLaVA Factory がここにあります。

続きを見る

「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA!

1 はじめに

2 メソッド

2.1 環境情報抽出モジュール

2.2 推論モジュール

2.3 リフレクションモジュール

3 実験と結果

3.1 主な実験

3.2 アブレーション実験

3.3 視覚分析

ラウンドアバウト交通シーン

4 結論

関連記事

「クローズドループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズドループプランニングのための新しい SOTA!