ホームページ >テクノロジー周辺機器 >AI >nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。

PHPz転載: 2024-04-17 18:22:16948ブラウズ

前書きと出発点

エンドツーエンドのパラダイムは、自動運転システムでマルチタスクを実現するために統一されたフレームワークを使用します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパースアーキテクチャが、検出、追跡、オンラインマッピングなどのタスク認識のために設計されています。さらに、動作の予測と計画が再考され、より合理的な動作計画のフレームワークが設計されます。困難な nuScenes データセット上で、SparseAD はエンドツーエンドのアプローチで最先端のフルタスクパフォーマンスを実現し、エンドツーエンドパラダイムとシングルタスクアプローチの間のパフォーマンスギャップを削減します。

分野の背景

自動運転システムは、運転の安全性と快適性を確保するために、複雑な運転シナリオにおいて正しい判断を下す必要があります。通常、自動運転システムは、検出、追跡、オンラインマッピング、動作予測、計画などの複数のタスクを統合します。図 1a に示すように、従来のモジュラーパラダイムは、複雑なシステムを複数の個別のタスクに分割し、それぞれが個別に最適化されます。このパラダイムでは、独立した単一タスクモジュール間で手動の後処理が必要となり、プロセス全体がより煩雑になります。一方で、スタックされたタスク間でシーン情報の圧縮が失われるため、システム全体のエラーが蓄積し、潜在的な安全上の問題につながる可能性があります。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

上記の問題に関して、エンドツーエンドの自動運転システムは生のパーセプトロンデータを入力として受け取り、より簡潔な方法で計画結果を返します。初期の研究では、中間タスクをスキップし、生のパーセプトロンデータから直接計画結果を予測することが提案されていました。このアプローチはより単純ですが、モデルの最適化、解釈可能性、および計画のパフォーマンスの点で満足のいくものではありません。より優れた解釈性を備えたもう 1 つの多面的なパラダイムは、自動運転の複数の部分をモジュール式のエンドツーエンドモデルに統合することです。これにより、多次元の監視が導入され、複雑な運転シナリオの理解が向上し、マルチタスクの機能がもたらされます。

図 1b に示すように、最も先進的なモジュラーエンドツーエンド手法では、運転シナリオ全体が、マルチセンサーと時間情報を含む鳥瞰図 (BEV) 機能の高密度の集合によって特徴付けられます。、センシング、予測、計画などのフルスタックドライバータスクへの入力として機能します。高密度に集約された BEV の機能は、空間と時間を超えてマルチモダリティとマルチタスクを実現する上で重要な役割を果たしますが、BEV 表現を使用したこれまでのエンドツーエンドの手法は、高密度 BEV 中心のパラダイムとして要約されています。これらの手法の単純さと解釈のしやすさにもかかわらず、自動運転の各サブタスクにおけるパフォーマンスは、対応するシングルタスク手法に比べて依然として大幅に遅れています。さらに、Dense BEV-Centric パラダイムの下では、長期的な時間的融合とマルチモーダルフュージョンは主に複数の BEV 特徴マップを通じて実現されます。これにより、コンピューティングコストとメモリ使用量が大幅に増加し、実際のシステムに大きな負担をもたらします。展開。

ここでは、新しいスパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) を提案します。このパラダイムでは、図 1c に示すように、運転シーン全体の空間要素と時間要素がスパースルックアップテーブルによって表され、従来の高密度アンサンブル鳥瞰図 (BEV) 機能が放棄されます。このスパース表現により、エンドツーエンドモデルはより長い履歴情報をより効率的に利用し、計算コストとメモリフットプリントを大幅に削減しながら、より多くのモードやタスクに拡張できるようになります。

モジュール式のエンドツーエンドアーキテクチャが再設計され、スパースセンシングとモーションプランナーで構成される簡潔な構造に簡素化されました。スパース知覚モジュールでは、ユニバーサル時間デコーダを利用して、検出、追跡、オンラインマッピングなどの知覚タスクを統合します。このプロセスでは、マルチセンサーの特徴と履歴記録がトークンとして扱われ、オブジェクトクエリとマップクエリはそれぞれ運転シーン内の障害物と道路要素を表します。モーションプランナーでは、まばらな知覚クエリが環境表現として使用され、マルチモーダルモーション予測が車両と周囲のエージェントに対して同時に実行され、自車両の複数の初期計画ソリューションが取得されます。その後、多次元の運転制約が十分に考慮されて、最終的な計画結果が生成されます。

主な貢献:

は、新しいスパースクエリ中心のエンドツーエンド自動運転パラダイム (SparseAD) を提案します。これは、従来の高密度鳥瞰図 (BEV) 表現方法を放棄するため、効率的にスケーリングできる大きな可能性を秘めています。より多くのモダリティとタスクに。
モジュール式のエンドツーエンドアーキテクチャを、スパースセンシングとモーションプランニングの 2 つの部分に簡素化します。スパース知覚部分では、検出、追跡、オンラインマッピングなどの知覚タスクが完全にスパースな方法で統合され、動作計画部分では、より合理的なフレームワークの下で動作の予測と計画が実行されます。
困難な nuScenes データセット上で、SparseAD はエンドツーエンド方式の中で最先端のパフォーマンスを達成し、エンドツーエンドパラダイムとシングルタスク方式の間のパフォーマンスギャップを大幅に縮小します。これは、提案されたスパースエンドツーエンドパラダイムの大きな可能性を十分に示しています。 SparseAD は、自動運転システムのパフォーマンスと効率を向上させるだけでなく、将来の研究と応用に新たな方向性と可能性をもたらします。

SparseAD ネットワーク構造

図 1c に示すように、提案されているスパースクエリ中心のパラダイムでは、さまざまなスパースクエリが全体を完全に表します。モジュール間の情報転送と相互作用を担当するだけでなく、エンドツーエンドの最適化のためにマルチタスクで逆勾配を伝播します。以前の高密度セット鳥瞰図 (BEV) 中心の方法とは異なり、SparseAD ではビュー投影と高密度 BEV 機能が使用されないため、大きな計算負荷とメモリ負荷が回避されます。SparseAD の詳細なアーキテクチャを図 2 に示します。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

アーキテクチャ図を見ると、SparseAD は主に、センサーエンコーダー、スパース知覚、モーションプランナーの 3 つの部分で構成されています。具体的には、センサーエンコーダーは、マルチビューカメラ画像、レーダーまたはライダーポイントを入力として受け取り、それらを高次元の特徴にエンコードします。これらの特徴は、位置埋め込み (PE) とともにセンサートークンとしてスパースセンシングモジュールに入力されます。スパースセンシングモジュールでは、センサーからの生データが、検出クエリ、追跡クエリ、地図クエリなどのさまざまなスパースセンシングクエリに集約され、それぞれ運転シーンのさまざまな要素を表し、さらに下流のタスクに伝播されます。。モーションプランナーでは、認識クエリは運転シーンのまばらな表現として扱われ、周囲のすべてのエージェントと自車に対して完全に活用されます。同時に、安全で動的に準拠した最終計画を生成するために、複数の運転制約が考慮されます。

さらに、エンドツーエンドのマルチタスクメモリライブラリがアーキテクチャに導入され、運転シーン全体のタイミング情報を均一に保存することで、システムは長期データの集約から恩恵を受けることができます。フルスタックの駆動タスクを完了するための履歴情報。

図 3 に示すように、SparseAD のスパース認識モジュールは、検出、追跡、オンラインマッピングなどの複数の認識タスクをスパースな方法で統合します。具体的には、メモリバンクからの長期履歴情報を活用する、構造的に同一の時間デコーダが 2 つあります。デコーダの 1 つは障害物の検知に使用され、もう 1 つはオンラインマッピングに使用されます。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

さまざまなタスクに対応する認識クエリを通じて情報を集約した後、検出および追跡ヘッドとマップ部分を使用して障害物とマップ要素をそれぞれデコードおよび出力します。その後、更新プロセスが実行され、現在のフレームの信頼度の高いセンシングクエリをフィルタリングして保存し、それに応じてメモリバンクを更新します。これは、次のフレームのセンシングプロセスに利益をもたらします。

このようにして、SparseAD のスパース認識モジュールは、運転シーンの効率的かつ正確な認識を実現し、その後の動作計画に重要な情報基盤を提供します。同時に、メモリバンク内の履歴情報を利用することで、モジュールは知覚の精度と安定性をさらに向上させ、自動運転システムの信頼性の高い動作を保証します。

スパース知覚

障害物の知覚に関しては、統合されたデコーダ内で共同検出と追跡が採用されており、追加の手動後処理は必要ありません。検出クエリと追跡クエリの間には大きな不均衡があり、検出パフォーマンスの大幅な低下につながる可能性があります。上記の問題を軽減するために、多角度からの障害物検知の性能が向上しました。まず、フレーム間で時間情報を伝播するために 2 レベルのメモリメカニズムが導入されます。その中で、シーンレベルのメモリはフレーム間の相関関係を持たずにクエリ情報を維持し、インスタンスレベルのメモリは追跡障害物の隣接するフレーム間の対応関係を維持します。第 2 に、2 つの異なる起源とタスクを考慮して、シーンレベルとインスタンスレベルのメモリには異なる更新戦略が採用されます。具体的には、シーンレベルのメモリは MLN 経由で更新され、インスタンスレベルのメモリは各障害物の将来の予測で更新されます。さらに、トレーニングプロセス中に、2 つのメモリレベル間の監視のバランスをとるために、クエリの追跡に拡張戦略も採用され、それによって検出と追跡のパフォーマンスが向上します。その後、頭部を検出および追跡することで、属性および一意の ID を含む 3D 境界ボックスを検出または追跡クエリからデコードし、さらに下流のタスクで使用できます。

オンラインマップの構築は複雑かつ重要な作業です。現在の知識によれば、既存のオンラインマップ構築方法は、ほとんどが運転環境を表す高密度鳥瞰図 (BEV) 機能に依存しています。このアプローチでは、大量のメモリとコンピューティングリソースが必要となるため、センシング範囲を拡張したり、履歴情報を活用したりすることが困難です。私たちは、すべてのマップ要素はスパース方式で表現できると強く信じているため、スパースパラダイムの下でオンラインマップの構築を完了しようとしています。具体的には、障害物認識タスクと同じ時間デコーダ構造が採用されます。最初に、以前のカテゴリを含むマップクエリが、運転平面上に均一に分散されるように初期化されます。テンポラルデコーダでは、マップクエリがセンサーマーカーおよび履歴メモリマーカーと対話します。これらの履歴メモリマーカーは、実際には、以前のフレームからの信頼性の高いマップクエリで構成されています。更新されたマップクエリには、現在のフレームのマップ要素に関する有効な情報が含まれ、将来のフレームまたはダウンストリームタスクで使用するためにメモリバンクにプッシュできます。

明らかに、オンラインマップ構築のプロセスは障害物の認識とほぼ同じです。つまり、検出、追跡、オンラインマップ構築を含むセンシングタスクは、より大きな範囲 (100m × 100m など) または長期融合に拡張する場合により効率的であり、複雑な操作を必要としない共通のスパースアプローチに統合されます。 (変形可能なアテンションや多点アテンションなど)。私たちの知る限り、これは統一された認識アーキテクチャでオンラインマップ構築をまばらな方法で実装した最初の例です。その後、区分的ベジェマップ Head を使用して、各スパースマップ要素の区分的ベジェコントロールポイントを返します。これらのコントロールポイントは、下流タスクの要件を満たすように簡単に変換できます。

Motion Planner

私たちは、自動運転システムにおける動きの予測と計画の問題を再検討しました。その結果、これまでの多くの方法では、周囲の動きを予測する際にこの問題が無視されていたことがわかりました。自我車両のダイナミクス。ほとんどの状況ではこれは明らかではありませんが、近くの車両とホスト車両の間で密接な相互作用が存在する交差点などのシナリオでは、潜在的なリスクとなる可能性があります。これに触発されて、より合理的な動作計画フレームワークが設計されました。このフレームワークでは、動き予測器が周囲の車両と自車両の動きを同時に予測します。その後、自車両の予測結果は、後続のプランニングオプティマイザーでモーション事前分布として使用されます。計画プロセス中に、安全性と力学要件の両方を満たす最終的な計画結果を生み出すために、制約のさまざまな側面を考慮します。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

図 4 に示すように、SparseAD のモーションプランナーは、認識クエリ (軌跡クエリや地図クエリを含む) を現在の運転シーンのまばらな表現として処理します。マルチモーダルモーションクエリは、運転シナリオの理解、すべての車両 (自車両を含む) 間の相互作用の認識、および将来のさまざまな可能性のゲームを可能にする媒体として使用されます。次に、車両のマルチモーダルモーションクエリがプランニングオプティマイザーに入力され、高レベルの指示、安全性、ダイナミクスなどの運転上の制約が考慮されます。

動き予測器。以前の方法に従って、モーションクエリと現在の運転シーン表現 (軌跡クエリや地図クエリを含む) の間の認識と統合は、標準のトランスフォーマーレイヤーを通じて実現されます。さらに、自己車両エージェントとクロスモーダル相互作用を適用して、将来の時空間シーンにおける周囲のエージェントと自己車両間の相互作用を共同モデル化します。多層スタッキング構造内および多層スタッキング構造間のモジュール相乗効果を通じて、モーションクエリは静的環境と動的環境の両方から豊富なセマンティック情報を集約できます。

上記に加えて、動き予測器のパフォーマンスをさらに向上させるために 2 つの戦略も導入されています。まず、周囲のエージェントの動作クエリの初期化の一部として、軌道クエリのインスタンスレベルの一時メモリを使用して、単純かつ直接的な予測が行われます。このようにして、動き予測機能は上流のタスクから得られた事前知識から恩恵を受けることができます。第 2 に、エンドツーエンドのメモリライブラリのおかげで、ほとんど無視できるコストで、エージェントメモリアグリゲータを介して、保存された履歴モーションクエリからストリーミング方式で有用な情報を同化できます。

この車両のマルチモーダルモーションクエリも同時に更新されることに注意してください。これにより、自車両の事前運動を取得することができ、計画学習をさらに容易にすることができる。

計画オプティマイザー。動き予測器によって提供される動き事前予測を使用すると、より適切な初期化が得られ、トレーニング中の迂回が少なくなります。モーションプランナーの重要なコンポーネントとして、コスト関数の設計は最終パフォーマンスの品質に大きな影響を与え、さらには決定するため、非常に重要です。提案された SparseAD モーションプランナーでは、満足のいく計画結果を生成することを目的として、安全性とダイナミクスという 2 つの主要な制約が主に考慮されます。具体的には、VAD で決定された制約に加えて、車両と近くのエージェントの間の動的安全関係にも焦点を当て、将来の瞬間におけるそれらの相対位置を考慮します。たとえば、エージェント i が車両に対して左前方エリアに留まり続け、車両が左に車線変更できない場合、エージェント i は左ラベルを取得し、エージェント i が車両に左方向の制約を課していることを示します。。したがって、拘束は縦方向では前、後ろ、またはなしとして分類され、横方向では左、右、またはなしとして分類されます。プランナーでは、対応するクエリから他のエージェントと車両との水平方向および垂直方向の関係を解読します。このプロセスには、これらの方向における他のエージェントと自身の車両の間のすべての制約の確率を決定することが含まれます。次に、焦点損失をエゴエージェント関係 (EAR) のコスト関数として利用して、近くのエージェントによってもたらされる潜在的なリスクを効果的に捕捉します。制御に従うシステム実行の動的法則により、モーションプランナーに補助タスクが埋め込まれ、車両の動的状態の学習が促進されます。 Qego にクエリを実行して、自分の車両から速度、加速度、ヨー角などの状態をデコードし、ダイナミクス損失を使用してこれらの状態を監視します:

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

実験結果

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

この方法の有効性と優位性を実証するために、nuScenes データセットに対して広範な実験が行われました。公平を期すために、各完全なタスクのパフォーマンスが評価され、以前の方法と比較されます。このセクションの実験では、SparseAD の 3 つの異なる構成、つまり画像入力のみを使用する SparseAD-B と SparseAD-L、およびレーダー点群と画像マルチモーダル入力を使用する SparseAD-BR を使用します。 SparseAD-B と SparseAD-BR はどちらも画像バックボーンネットワークとして V2-99 を使用し、入力画像の解像度は 1600 × 640 です。 SparseAD-L はさらに、画像バックボーンネットワークとして ViTLarge を使用し、入力画像の解像度は 1600×800 です。

nuScenes 検証データセットでの 3D 検出と 3D マルチターゲット追跡の結果は次のとおりです。「追跡のみのメソッド」とは、後処理相関を通じて追跡されるメソッドを指します。「エンドツーエンドの自動運転方式」とは、フルスタックの自動運転タスクが可能な方式を指します。表内のすべてのメソッドは、フル解像度の画像入力を使用して評価されます。 †: 結果は公式のオープンソースコードを通じて再現されます。 -R: レーダー点群入力が使用されることを示します。

オンラインマッピング方式との性能比較は、[1.0m、1.5m、2.0m]の閾値で評価した結果です。 ‡: 公式オープンソースコードを通じて再現された結果。 †: SparseAD の計画モジュールのニーズに基づいて、境界を道路セグメントと車線にさらに細分化し、それらを個別に評価しました。 ※：バックボーンネットワークとスパースセンシングモジュールのコスト。 -R: レーダー点群入力が使用されることを示します。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

マルチタスクの結果

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

障害物の認識。 SparseAD の検出および追跡パフォーマンスは、表 2 の nuScenes 検証セットで他の方法と比較されます。明らかに、SparseAD-B は、最も一般的な検出のみ、追跡のみ、およびエンドツーエンドのマルチオブジェクト追跡手法で優れたパフォーマンスを発揮し、対応するタスクでは StreamPETR や QTrack などの SOTA 手法と同等のパフォーマンスを発揮します。より高度なバックボーンネットワークでスケールアップすることにより、SparseAD-Large は全体的に優れたパフォーマンスを実現し、mAP が 53.6%、NDS が 62.5%、AMOTA が 60.6% となり、これまでの最良の方法である Sparse4Dv3 よりも全体的に優れています。

オンラインマッピング。表 3 は、nuScenes 検証セットでの SparseAD と他の以前の方法との間のオンラインマッピングパフォーマンスの比較結果を示しています。計画のニーズに応じて、境界を道路セグメントと車線に細分化し、それらを個別に評価すると同時に、障害物の認識と一致させるために範囲を通常の 60m × 30m から 102.4m × 102.4m に拡張したことを指摘しておく必要があります。 SparseAD は、公平性を失うことなく、高密度の BEV 表現を使用せずにスパースなエンドツーエンド方式で 34.2% の mAP を達成します。これは、パフォーマンスの点で、HDMapNet、VectorMapNet、MapTR などの以前に普及していた最も一般的な方法よりも優れています。トレーニング費用とコストの観点から。パフォーマンスは StreamMapNet よりわずかに劣りますが、私たちの方法は、高密度の BEV 表現を使用せずに均一な疎な方法でオンラインマッピングを実行できることを示しており、これは大幅に低コストでのエンドツーエンドの自動運転の実用的な展開に影響を及ぼします。確かに、他のモダリティ (レーダーなど) からの有用な情報を効果的に利用する方法は、さらに検討する価値のある課題です。まばらなやり方でもまだまだ模索の余地はあると考えています。

動き予測。動き予測の比較結果を表 4a に示します。指標は VIP3D と一致しています。 SparseAD は、すべてのエンドツーエンド方式の中で最高のパフォーマンスを達成し、最低 0.83 万 minADE、158 万 minFDE、18.7% のミス率、最高 0.308 EPA であり、これは大きな利点です。さらに、スパースクエリセンターパラダイムの効率性とスケーラビリティのおかげで、SparseAD はより多くのモダリティに効果的に拡張でき、高度なバックボーンネットワークの恩恵を受けて、予測パフォーマンスをさらに大幅に向上させることができます。

計画。計画の結果を表 4b に示します。上流の認識モジュールとモーションプランナーの優れた設計のおかげで、SparseAD のすべてのバージョンは、nuScenes 検証データセットで最先端のパフォーマンスを実現します。具体的には、SparseAD-B は、UniAD や VAD を含む他のすべての方法と比較して、最低の平均 L2 エラーと衝突率を達成しており、これは私たちのアプローチとアーキテクチャの優位性を示しています。障害物の認識や動作予測などの上流のタスクと同様に、SparseAD はレーダーやより強力なバックボーンネットワークを使用してパフォーマンスをさらに向上させます。

nuScenes最新SOTA | SparseAD：稀疏查询助力高效端到端自动驾驶！

以上がnuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构栈堆 map 并发 transformer 传感器

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：清華チームが新しいプラットフォームを立ち上げる：分散型 AI を使用してコンピューティング能力不足を打破次の記事：清華チームが新しいプラットフォームを立ち上げる：分散型 AI を使用してコンピューティング能力不足を打破

続きを見る

nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。

前書きと出発点

分野の背景

SparseAD ネットワーク構造

スパース知覚

Motion Planner

関連記事

nuScenes の最新 SOTA | SparseAD: スパースクエリは効率的なエンドツーエンドの自動運転に役立ちます。