ホームページ >テクノロジー周辺機器 >AI >変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

PHPz
PHPz転載
2024-04-19 16:01:24464ブラウズ

著者の個人的な理解

自動運転の基本的なタスクの 1 つは 3 次元のターゲット検出であり、多くの方法は現在マルチセンサー フュージョンに基づいています。では、なぜマルチセンサーフュージョンが必要なのでしょうか? それがライダーとカメラのフュージョンであっても、ミリ波レーダーとカメラのフュージョンであっても、主な目的は、点群と画像の間の補完的な接続を使用して、ターゲット検出の精度を向上させることです。コンピューター ビジョンの分野で Transformer アーキテクチャを継続的に適用することで、アテンション メカニズムに基づく手法により、複数のセンサー間の融合の精度が向上しました。共有された 2 つの論文は、このアーキテクチャに基づいており、それぞれのモダリティの有用な情報をさらに活用し、より優れた融合を達成するための新しい融合方法を提案しています。

TransFusion:

主な貢献

ライダーとカメラは自動運転における 2 つの重要な 3 次元目標検出センサーです。しかし、センサーフュージョンでは、主に画像の縞模様の状態が悪いために検出精度が低いという問題に直面しています。ポイントベースの融合手法は、ハード アソシエーションを通じて LIDAR とカメラを融合するものですが、これによりいくつかの問題が発生します。 a) 点群と画像の特徴を単純に接合すると、低品質の画像の特徴が存在すると、検出パフォーマンスが大幅に低下します。 ;b) まばらな点群と画像の間の厳密な相関関係を見つけると、高品質の画像特徴が無駄になり、位置合わせが困難になります。 この問題を解決するために、ソフトアソシエーション法が提案されている。この方法では、LIDAR とカメラを 2 つの独立した検出器として扱い、相互に連携して 2 つの検出器の利点を最大限に活用します。まず、従来のオブジェクト検出器を使用してオブジェクトを検出し、境界ボックスを生成します。次に、境界ボックスと点群を照合して、各点がどの境界ボックスに関連付けられているかのスコアを取得します。最後に、エッジ ボックスに対応する画像特徴が、点群によって生成された特徴と融合されます。この方法は、画像の縞模様の状態が悪いことに起因する検出精度の低下を効果的に回避できます。同時に、

この論文では、2 つのセンサー間の相関問題を解決するための、LIDAR とカメラの融合フレームワークである TransFusion を紹介します。 。主な貢献は次のとおりです。

  • 変圧器ベースの LIDAR とカメラに基づく 3D 検出融合モデルを提案し、低画質やセンサーの位置ずれに対する優れた堅牢性を示しました。
  • 導入オブジェクト クエリに対するいくつかのシンプルかつ効果的な調整により、画像融合の初期バウンディング ボックス予測の品質が向上しました。また、点群での検出が難しいオブジェクトを処理するための画像ガイド付きクエリ初期化モジュールも設計されました。
  • Not nuScenes で高度な 3D 検出パフォーマンスを実現するだけでなく、モデルを 3D 追跡タスクに拡張し、良好な結果も達成します。

モジュールの詳細説明

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 1 TransFusion の全体フレームワーク

解決するには上の画像エントリ 異なるセンサー間の差異と相関の問題を解決するために、Transformer ベースの融合フレームワークである TransFusion が提案されています。このモデルは、標準の 3D および 2D バックボーン ネットワークに依存して LiDAR BEV の特徴と画像の特徴を抽出し、2 つの Transformer デコーダ層で構成されます。最初の層のデコーダは疎な点群を使用して初期境界ボックスを生成し、2 番目の層のデコーダは最初の境界ボックスを変換します。レイヤー オブジェクト クエリは画像特徴クエリと組み合わされて、より良い検出結果が得られます。空間変調アテンション メカニズム (SMCA) と画像ガイド付きクエリ戦略も導入され、検出精度が向上します。このモデルを検出することで、より優れた画像特徴と検出精度を得ることができます。

クエリの初期化

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

##LiDAR-Camera Fusion

If オブジェクトに次のものが含まれる場合LIDAR ポイントの数が少ないと、同じ数の画像特徴しか取得できず、高品質の画像意味情報が無駄になります。したがって、この論文では、すべての画像特徴を保持し、Transformer のクロスアテンション メカニズムと適応手法を使用して特徴融合を実行し、ネットワークが画像から位置と情報を適応的に抽出できるようにします。 LiDAR BEV の特徴とさまざまなセンサーからの画像特徴の空間的不整合の問題を軽減するために、2 次元の中心の周りの 2 次元座標を渡す

空間変調クロスアテンション モジュール (SMCA) が設計されています。各クエリ投影の次元円形ガウス マスクの重み付けはクロス アテンションです。

イメージガイドによるクエリの初期化

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 2 イメージガイドによるクエリ モジュール

このモジュールは、画像特徴と LIDAR BEV 特徴をクロスアテンション メカニズム ネットワークに送信し、それらを BEV 平面に投影し、融合された BEV 特徴を生成することにより、LIDAR と画像情報をオブジェクト クエリとして同時に使用します。図 2 に示すように、まずマルチビュー画像の特徴がクロス アテンション メカニズム ネットワークのキー値として高さ軸に沿って折り畳まれ、LIDAR BEV 特徴がクエリとしてアテンション ネットワークに送信され、融合された BEV 特徴が取得されます。はヒート マップ予測に使用され、LIDAR のみのヒート マップ Ŝ で平均化されて、最終的なヒート マップ Ŝ を取得し、ターゲット クエリを選択して初期化します。このような操作により、モデルは LIDAR 点群では検出が困難なターゲットを検出できるようになります。

実験

データセットとメトリクス

nuScenes データセットは、3D 検出および追跡のための大規模な自動システムです。 700、150、150 のシーンを含む運転データセットは、それぞれトレーニング、検証、テストに使用されます。各フレームには、LIDAR 点群と 360 度の水平視野をカバーする 6 つのキャリブレーション画像が含まれています。 3D 検出の主な指標は、平均平均精度 (mAP) と nuScenes 検出スコア (NDS) です。 mAP は 3D IoU ではなく BEV 中心距離によって定義され、最終的な mAP は 10 のカテゴリの 0.5m、1m、2m、4m の距離しきい値を平均することによって計算されます。 NDS は、mAP と、移動、スケール、方向、速度、その他のボックス属性を含むその他の属性測定の包括的な測定です。 。

Waymo データセットには、トレーニング用の 798 シーンと検証用の 202 シーンが含まれています。公式指標は mAP と mAPH (方位精度によって重み付けされた mAP) です。 mAP と mAPH は、3D IoU しきい値 (車両の場合は 0.7、歩行者と自転車の場合は 0.5) に基づいて定義されます。これらのメトリクスはさらに 2 つの難易度レベルに分類されます。LEVEL1 は 5 つを超える LIDAR ポイントを持つ境界ボックス、LEVEL2 は少なくとも 1 つの LIDAR ポイントを持つ境界ボックスです。 nuScenes の 360 度カメラとは異なり、Waymo のカメラは水平約 250 度しかカバーしません。

トレーニング nuScenes データセットで、画像の 2D バックボーン ネットワークとして DLA34 を使用し、その重みをフリーズし、画像サイズを 448×800 に設定します。3D バックボーン ネットワークとして VoxelNet を選択します。ライダーの。トレーニング プロセスは 2 つのステージに分かれています。第 1 ステージでは、LiDAR データのみを入力として使用し、第 1 層デコーダと FFN フィードフォワード ネットワークを使用して 3D バックボーンを 20 回トレーニングして、初期の 3D バウンディング ボックス予測を生成します。第 2 ステージでは、LiDAR をトレーニングします。 -カメラ フュージョンおよび画像ガイド付きクエリ初期化モジュールは 6 回トレーニングされます。左の画像は、最初のバウンディング ボックス予測に使用されるトランスフォーマー デコーダー層のアーキテクチャであり、右の画像は、LiDAR とカメラの融合に使用されるトランスフォーマー デコーダー層のアーキテクチャです。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 3 デコーダー層の設計

最先端の手法との比較

最初の比較TransFusion およびその他の SOTA 3D ターゲット検出タスクにおけるメソッドのパフォーマンスを以下の表 1 に示します。これは、nuScenes テスト セットでの結果です。このメソッドがその時点で最高のパフォーマンスに達していることがわかります (mAP は68.9%、NDSは71.7%)。 TransFusion-L は検出に LIDAR のみを使用し、その検出パフォーマンスは以前のシングルモーダル検出方法よりも大幅に優れており、これは主に新しい関連付けメカニズムとクエリ初期化によるものです。表 2 は、Waymo 検証セットでの LEVEL 2 mAPH の結果を示しています。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

#表 1 nuScenes テストにおける SOTA 手法との比較

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 2 Waymo 検証セット mAPH の LEVEL 2

過酷な画像条件に対する堅牢性

TransFusion-L をベンチマークとして使用し、堅牢性を検証するためにさまざまな Fusion フレームワークが設計されています。 3 つのフュージョン フレームワークは、ポイントごとのスプライシングと LIDAR と画像フィーチャのフュージョン (CC)、ポイント エンハンスメント フュージョン ストラテジー (PA)、および TransFusion です。表 3 に示すように、nuScenes データ セットを昼と夜に分割することにより、TransFusion 手法により夜間のパフォーマンスが大幅に向上します。表 4 からわかるように、推論プロセス中に一部の画像が利用できない場合、検出パフォーマンスが低下します。 CC と PA の mAP はそれぞれ 23.8% と 17.2% 減少しましたが、TransFusion は 61.7% のままでした。キャリブレーションされていないセンサーは、3D ターゲット検出のパフォーマンスにも大きな影響を与えます。図 4 に示すように、実験設定では、カメラから LIDAR への変換行列に変換オフセットがランダムに追加されます。2 つのセンサーが 1m オフセットされている場合、mAP はTransFusion It の減少は 0.49% のみでしたが、PA と CC の mAP はそれぞれ 2.33% と 2.85% 減少しました。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 3 昼と夜の mAP

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 4 さまざまな数の画像での mAP

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図4 mAP

センサーの位置ずれを伴うアブレーション実験

表 5 d)-f) の結果から、クエリの初期化がない場合に次のことがわかります。 、検出パフォーマンスは大幅に低下しますが、トレーニング ラウンドの数とデコーダ レイヤーの数を増やすとパフォーマンスは向上しますが、それでも理想的な効果を達成することはできません。これは、提案された初期化クエリ戦略が数を削減できることを側面から証明しています。ネットワーク層の。表 6 に示すように、画像特徴融合と画像ガイドによるクエリ初期化により、それぞれ 4.8% と 1.6% の mAP ゲインが得られます。表 7 では、さまざまな範囲での精度の比較を通じて、検出が困難な物体や遠隔地における TransFusion の検出パフォーマンスが、LIDAR のみの検出と比較して向上しています。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

#表 5 クエリ初期化モジュールのアブレーション実験

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 6 融合部のアブレーション実験

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 7 物体中心と自車間の距離 (メートル単位)

結論

効果的な効果と画像から取得すべき位置と情報を適応的に決定できるソフト相関メカニズムを備えた堅牢な Transformer ベースの LIDAR カメラ 3D 検出フレームワーク。 TransFusion は、nuScenes の検出および追跡リーダーボードで最先端の結果を達成し、Waymo 検出ベンチマークでも競争力のある結果を示しています。広範なアブレーション実験により、劣悪な画像条件に対するこの方法の堅牢性が実証されています。

DeepInteraction:

主な貢献:

解決された主な問題は、既存のマルチモーダル融合戦略がモダリティを無視していることです。特定の有用な情報は、最終的にはモデルのパフォーマンスを妨げます。点群は低解像度で必要な位置情報と幾何学情報を提供し、画像は高解像度で豊富な外観情報を提供するため、クロスモーダル情報の融合は 3D ターゲット検出パフォーマンスを向上させるために特に重要です。図 1(a) に示すように、既存の融合モジュールは 2 つのモダリティの情報を統合されたネットワーク空間に統合しますが、そうすることで一部の情報が統合された表現に統合されなくなり、特定の情報の一部が減少します。モダリティの代表的な利点。上記の制限を克服するために、この記事では新しいモーダル相互作用モジュール (図 1(b)) を提案しています。重要なアイデアは、2 つのモダリティ固有の表現を学習して維持し、モダリティ間の相互作用を実現することです。主な貢献は次のとおりです。

    マルチモーダル 3 次元ターゲット検出のための新しいモーダル インタラクション戦略を提案し、各モダリティで有用な情報が失われる以前のモーダル融合戦略の基本的な問題を解決することを目的としています。制限事項;
  • マルチモーダル機能インタラクティブ エンコーダーとマルチモーダル機能予測インタラクティブ デコーダーを備えた DeepInteraction アーキテクチャを設計しました。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 1 さまざまな融合戦略

モジュールの詳細

マルチモダリティ特性評価インタラクティブ エンコーダー エンコーダを多入力多出力 (MIMO) 構造にカスタマイズします。LIDAR とカメラ バックボーンによって個別に抽出された 2 つのモーダル固有のシーン情報を入力として受け取り、2 つの拡張機能情報を生成します。エンコーダの各層には、i) マルチモーダル特徴相互作用 (MMRI)、ii) イントラモーダル特徴学習、iii) 表現統合が含まれます。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 2 マルチモーダル表現対話モジュール

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

図 3 マルチモーダル予測インタラクション モジュール

実験

データ セットとインジケーターは、TransFusion の nuScenes データ セット部分と同じです。

実験の詳細 画像のバックボーン ネットワークは ResNet50 です。コンピューティング コストを節約するために、入力画像はネットワークに入る前に元のサイズの 1/2 に再スケールされます。画像ブランチはトレーニング中にフリーズします。ボクセルサイズは(0.075m、0.075m、0.2m)、検出範囲はX軸、Y軸が[-54m、54m]、Z軸が[-5m、3m]に設定されています。軸 2 つのエンコーダー層と 5 つのカスケード デコーダー層を設計します。さらに、テスト時間増加 (TTA) とモデル統合という 2 つのオンライン送信テスト モデルが設定されており、この 2 つの設定はそれぞれ DeepInteraction-large および DeepInteraction-e と呼ばれます。このうち、DeepInteraction-large は画像バックボーンネットワークとして Swin-Tiny を使用し、LIDAR バックボーンネットワーク内の畳み込みブロックのチャネル数を 2 倍にし、ボクセルサイズを [0.5m, 0.5m, 0.2m] に設定し、双方向を使用します。テスト時間を増やすには、ヨー角を反転および回転 [0°、±6.25°、±12.5°] します。 DeepInteraction-e は複数の DeepInteraction-large モデルを統合しており、入力 LIDAR BEV グリッド サイズは [0.5m、0.5m] および [1.5m、1.5m] です。

TransFusion の設定に従ってデータ拡張を実行します。範囲 [-π/4,π/4] のランダム回転、ランダム スケーリング係数 [0.9,1.1]、および標準の 3 軸ランダム移動を使用します。偏差 0.5 とランダムな水平反転、クラス バランス リサンプリングも CBGS で使用され、nuScenes のクラス分布のバランスをとります。 TransFusion と同じ 2 段階のトレーニング方法が使用され、TransFusion-L を LIDAR のみのトレーニングのベースラインとして使用します。 Adam オプティマイザーは、最大学習率 1×10−3、重み減衰 0.01、運動量 0.85 ~ 0.95 のシングルサイクル学習率戦略を使用し、CBGS に従います。 LIDAR ベースライン トレーニングは 20 ラウンド、LIDAR イメージ フュージョンは 6 ラウンド、バッチ サイズは 16、トレーニングには 8 つの NVIDIA V100 GPU が使用されます。

最先端の手法との比較

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 1 最先端の手法との比較nuScenes テスト セット

表 1 に示すように、DeepInteraction はすべての設定で最先端のパフォーマンスを実現します。表 2 は、NVIDIA V100、A6000、および A100 でそれぞれテストされた推論速度を比較しています。高性能を実現しながらも、高い推論速度を維持していることがわかり、この手法が検出性能と推論速度のトレードオフに優れていることがわかります。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?#表 2 推論速度の比較

アブレーション実験

デコーダのアブレーション実験マルチモーダル対話型予測デコーダ層と DETR デコーダ層の設計を表 3(a) で比較します。ハイブリッド設計が使用されています。 通常の DETR デコーダ層を使用します。 LIDAR で特徴を集約するためです。表現では、インタラクション用マルチモーダル予測デコーダー (MMPI) を使用して、画像表現内の特徴を集約します (2 行目)。 MMPI は DETR よりも大幅に優れており、mAP が 1.3%、NDS が 1.0% 向上し、設計の組み合わせが柔軟です。表 3(c) では、さまざまなデコーダ層が検出パフォーマンスに及ぼす影響をさらに調査しています。5 層のデコーダを追加すると、パフォーマンスが向上し続けることがわかります。最後に、トレーニングとテストで使用したクエリ数のさまざまな組み合わせを比較しました。さまざまな選択の下でパフォーマンスは安定していましたが、トレーニング/テストの最適な設定として 200/300 が使用されました。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?表 3 デコーダーのアブレーション実験

エンコーダーのアブレーション実験

表 4(a) から、 (1) IML と比較して、マルチモーダル表現インタラクティブ エンコーダ (MMRI) はパフォーマンスを大幅に向上させることができます。(2) MMRI と IML はうまく連携してパフォーマンスをさらに向上させることができます。表 4(b) からわかるように、反復 MMRI ではエンコーダ層を積み重ねることが有益です。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

表 4 エンコーダのアブレーション実験

ライダー バックボーン ネットワークのアブレーション実験

2 つの異なるレーザーを使用したレーダー バックボーン ネットワーク: PointPillar と VoxelNet を使用してフレームワークの汎用性を確認します。 PointPillars の場合、ボクセル サイズを (0.2m, 0.2m) に設定し、残りの設定は DeepInteraction-base と同じにします。提案されたマルチモーダル インタラクション戦略により、DeepInteraction は、いずれかのバックボーンを使用した場合に LIDAR のみのベースラインと比較して一貫した改善を示しました (ボクセルベースのバックボーンでは 5.5% mAP、ピラーベースのバックボーンでは 4.4% mAP)。これは、さまざまな点群エンコーダ間の DeepInteraction の多用途性を反映しています。

変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?

#表 5 さまざまな LIDAR バックボーンの評価

結論

この研究では、新しい3D ターゲット検出手法である DeepInteraction は、固有のマルチモーダル相補特性を調査するために開発されました。重要なアイデアは、2 つのモダリティ固有の表現を維持し、表現学習と予測デコードのためにそれらの間の相互作用を確立することです。この戦略は、既存の片側融合手法の基本的な制限、つまり、補助的なソース文字処理のために画像表現が十分に活用されていないという問題に対処するために特別に設計されています。

2 つの論文の概要:

上記 2 つの論文は、LIDAR とカメラ フュージョンに基づく 3 次元ターゲット検出に基づいており、DeepInteraction からも確認できます。これは、TransFusion のさらなる研究に基づいています。これら 2 つの論文から、マルチセンサー フュージョンの 1 つの方向性は、さまざまなモダリティのより効果的な情報に焦点を当てるための、より効率的な動的フュージョン方法を探索することであると結論付けることができます。もちろん、これらはすべて、両方のモダリティにおける質の高い情報に基づいています。マルチモーダル融合は、自動運転や知能ロボットなどの将来の分野で非常に重要な応用が可能になるため、さまざまなモダリティから抽出される情報が徐々に豊富になるにつれて、より多くの情報を組み合わせてデータをより効率的に使用することができます。考える価値のある質問です。

以上が変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。