ホームページ >テクノロジー周辺機器 >AI >変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?
自動運転の基本的なタスクの 1 つは 3 次元のターゲット検出であり、多くの方法は現在マルチセンサー フュージョンに基づいています。では、なぜマルチセンサーフュージョンが必要なのでしょうか? それがライダーとカメラのフュージョンであっても、ミリ波レーダーとカメラのフュージョンであっても、主な目的は、点群と画像の間の補完的な接続を使用して、ターゲット検出の精度を向上させることです。コンピューター ビジョンの分野で Transformer アーキテクチャを継続的に適用することで、アテンション メカニズムに基づく手法により、複数のセンサー間の融合の精度が向上しました。共有された 2 つの論文は、このアーキテクチャに基づいており、それぞれのモダリティの有用な情報をさらに活用し、より優れた融合を達成するための新しい融合方法を提案しています。
ライダーとカメラは自動運転における 2 つの重要な 3 次元目標検出センサーです。しかし、センサーフュージョンでは、主に画像の縞模様の状態が悪いために検出精度が低いという問題に直面しています。ポイントベースの融合手法は、ハード アソシエーションを通じて LIDAR とカメラを融合するものですが、これによりいくつかの問題が発生します。 a) 点群と画像の特徴を単純に接合すると、低品質の画像の特徴が存在すると、検出パフォーマンスが大幅に低下します。 ;b) まばらな点群と画像の間の厳密な相関関係を見つけると、高品質の画像特徴が無駄になり、位置合わせが困難になります。 この問題を解決するために、ソフトアソシエーション法が提案されている。この方法では、LIDAR とカメラを 2 つの独立した検出器として扱い、相互に連携して 2 つの検出器の利点を最大限に活用します。まず、従来のオブジェクト検出器を使用してオブジェクトを検出し、境界ボックスを生成します。次に、境界ボックスと点群を照合して、各点がどの境界ボックスに関連付けられているかのスコアを取得します。最後に、エッジ ボックスに対応する画像特徴が、点群によって生成された特徴と融合されます。この方法は、画像の縞模様の状態が悪いことに起因する検出精度の低下を効果的に回避できます。同時に、
この論文では、2 つのセンサー間の相関問題を解決するための、LIDAR とカメラの融合フレームワークである TransFusion を紹介します。 。主な貢献は次のとおりです。
図 1 TransFusion の全体フレームワーク
解決するには上の画像エントリ 異なるセンサー間の差異と相関の問題を解決するために、Transformer ベースの融合フレームワークである TransFusion が提案されています。このモデルは、標準の 3D および 2D バックボーン ネットワークに依存して LiDAR BEV の特徴と画像の特徴を抽出し、2 つの Transformer デコーダ層で構成されます。最初の層のデコーダは疎な点群を使用して初期境界ボックスを生成し、2 番目の層のデコーダは最初の境界ボックスを変換します。レイヤー オブジェクト クエリは画像特徴クエリと組み合わされて、より良い検出結果が得られます。空間変調アテンション メカニズム (SMCA) と画像ガイド付きクエリ戦略も導入され、検出精度が向上します。このモデルを検出することで、より優れた画像特徴と検出精度を得ることができます。
空間変調クロスアテンション モジュール (SMCA) が設計されています。各クエリ投影の次元円形ガウス マスクの重み付けはクロス アテンションです。
このモジュールは、画像特徴と LIDAR BEV 特徴をクロスアテンション メカニズム ネットワークに送信し、それらを BEV 平面に投影し、融合された BEV 特徴を生成することにより、LIDAR と画像情報をオブジェクト クエリとして同時に使用します。図 2 に示すように、まずマルチビュー画像の特徴がクロス アテンション メカニズム ネットワークのキー値として高さ軸に沿って折り畳まれ、LIDAR BEV 特徴がクエリとしてアテンション ネットワークに送信され、融合された BEV 特徴が取得されます。はヒート マップ予測に使用され、LIDAR のみのヒート マップ Ŝ で平均化されて、最終的なヒート マップ Ŝ を取得し、ターゲット クエリを選択して初期化します。このような操作により、モデルは LIDAR 点群では検出が困難なターゲットを検出できるようになります。
nuScenes データセットは、3D 検出および追跡のための大規模な自動システムです。 700、150、150 のシーンを含む運転データセットは、それぞれトレーニング、検証、テストに使用されます。各フレームには、LIDAR 点群と 360 度の水平視野をカバーする 6 つのキャリブレーション画像が含まれています。 3D 検出の主な指標は、平均平均精度 (mAP) と nuScenes 検出スコア (NDS) です。 mAP は 3D IoU ではなく BEV 中心距離によって定義され、最終的な mAP は 10 のカテゴリの 0.5m、1m、2m、4m の距離しきい値を平均することによって計算されます。 NDS は、mAP と、移動、スケール、方向、速度、その他のボックス属性を含むその他の属性測定の包括的な測定です。 。
Waymo データセットには、トレーニング用の 798 シーンと検証用の 202 シーンが含まれています。公式指標は mAP と mAPH (方位精度によって重み付けされた mAP) です。 mAP と mAPH は、3D IoU しきい値 (車両の場合は 0.7、歩行者と自転車の場合は 0.5) に基づいて定義されます。これらのメトリクスはさらに 2 つの難易度レベルに分類されます。LEVEL1 は 5 つを超える LIDAR ポイントを持つ境界ボックス、LEVEL2 は少なくとも 1 つの LIDAR ポイントを持つ境界ボックスです。 nuScenes の 360 度カメラとは異なり、Waymo のカメラは水平約 250 度しかカバーしません。
トレーニング nuScenes データセットで、画像の 2D バックボーン ネットワークとして DLA34 を使用し、その重みをフリーズし、画像サイズを 448×800 に設定します。3D バックボーン ネットワークとして VoxelNet を選択します。ライダーの。トレーニング プロセスは 2 つのステージに分かれています。第 1 ステージでは、LiDAR データのみを入力として使用し、第 1 層デコーダと FFN フィードフォワード ネットワークを使用して 3D バックボーンを 20 回トレーニングして、初期の 3D バウンディング ボックス予測を生成します。第 2 ステージでは、LiDAR をトレーニングします。 -カメラ フュージョンおよび画像ガイド付きクエリ初期化モジュールは 6 回トレーニングされます。左の画像は、最初のバウンディング ボックス予測に使用されるトランスフォーマー デコーダー層のアーキテクチャであり、右の画像は、LiDAR とカメラの融合に使用されるトランスフォーマー デコーダー層のアーキテクチャです。
図 3 デコーダー層の設計
最初の比較TransFusion およびその他の SOTA 3D ターゲット検出タスクにおけるメソッドのパフォーマンスを以下の表 1 に示します。これは、nuScenes テスト セットでの結果です。このメソッドがその時点で最高のパフォーマンスに達していることがわかります (mAP は68.9%、NDSは71.7%)。 TransFusion-L は検出に LIDAR のみを使用し、その検出パフォーマンスは以前のシングルモーダル検出方法よりも大幅に優れており、これは主に新しい関連付けメカニズムとクエリ初期化によるものです。表 2 は、Waymo 検証セットでの LEVEL 2 mAPH の結果を示しています。
#表 1 nuScenes テストにおける SOTA 手法との比較 表 2 Waymo 検証セット mAPH の LEVEL 2表 3 昼と夜の mAP
表 4 さまざまな数の画像での mAP
図4 mAP
表 5 d)-f) の結果から、クエリの初期化がない場合に次のことがわかります。 、検出パフォーマンスは大幅に低下しますが、トレーニング ラウンドの数とデコーダ レイヤーの数を増やすとパフォーマンスは向上しますが、それでも理想的な効果を達成することはできません。これは、提案された初期化クエリ戦略が数を削減できることを側面から証明しています。ネットワーク層の。表 6 に示すように、画像特徴融合と画像ガイドによるクエリ初期化により、それぞれ 4.8% と 1.6% の mAP ゲインが得られます。表 7 では、さまざまな範囲での精度の比較を通じて、検出が困難な物体や遠隔地における TransFusion の検出パフォーマンスが、LIDAR のみの検出と比較して向上しています。
#表 5 クエリ初期化モジュールのアブレーション実験 表 6 融合部のアブレーション実験 表 7 物体中心と自車間の距離 (メートル単位)マルチモダリティ特性評価インタラクティブ エンコーダー エンコーダを多入力多出力 (MIMO) 構造にカスタマイズします。LIDAR とカメラ バックボーンによって個別に抽出された 2 つのモーダル固有のシーン情報を入力として受け取り、2 つの拡張機能情報を生成します。エンコーダの各層には、i) マルチモーダル特徴相互作用 (MMRI)、ii) イントラモーダル特徴学習、iii) 表現統合が含まれます。
図 2 マルチモーダル表現対話モジュール 図 3 マルチモーダル予測インタラクション モジュール
実験の詳細 画像のバックボーン ネットワークは ResNet50 です。コンピューティング コストを節約するために、入力画像はネットワークに入る前に元のサイズの 1/2 に再スケールされます。画像ブランチはトレーニング中にフリーズします。ボクセルサイズは(0.075m、0.075m、0.2m)、検出範囲はX軸、Y軸が[-54m、54m]、Z軸が[-5m、3m]に設定されています。軸 2 つのエンコーダー層と 5 つのカスケード デコーダー層を設計します。さらに、テスト時間増加 (TTA) とモデル統合という 2 つのオンライン送信テスト モデルが設定されており、この 2 つの設定はそれぞれ DeepInteraction-large および DeepInteraction-e と呼ばれます。このうち、DeepInteraction-large は画像バックボーンネットワークとして Swin-Tiny を使用し、LIDAR バックボーンネットワーク内の畳み込みブロックのチャネル数を 2 倍にし、ボクセルサイズを [0.5m, 0.5m, 0.2m] に設定し、双方向を使用します。テスト時間を増やすには、ヨー角を反転および回転 [0°、±6.25°、±12.5°] します。 DeepInteraction-e は複数の DeepInteraction-large モデルを統合しており、入力 LIDAR BEV グリッド サイズは [0.5m、0.5m] および [1.5m、1.5m] です。
TransFusion の設定に従ってデータ拡張を実行します。範囲 [-π/4,π/4] のランダム回転、ランダム スケーリング係数 [0.9,1.1]、および標準の 3 軸ランダム移動を使用します。偏差 0.5 とランダムな水平反転、クラス バランス リサンプリングも CBGS で使用され、nuScenes のクラス分布のバランスをとります。 TransFusion と同じ 2 段階のトレーニング方法が使用され、TransFusion-L を LIDAR のみのトレーニングのベースラインとして使用します。 Adam オプティマイザーは、最大学習率 1×10−3、重み減衰 0.01、運動量 0.85 ~ 0.95 のシングルサイクル学習率戦略を使用し、CBGS に従います。 LIDAR ベースライン トレーニングは 20 ラウンド、LIDAR イメージ フュージョンは 6 ラウンド、バッチ サイズは 16、トレーニングには 8 つの NVIDIA V100 GPU が使用されます。#表 2 推論速度の比較
アブレーション実験デコーダのアブレーション実験マルチモーダル対話型予測デコーダ層と DETR デコーダ層の設計を表 3(a) で比較します。ハイブリッド設計が使用されています。 通常の DETR デコーダ層を使用します。 LIDAR で特徴を集約するためです。表現では、インタラクション用マルチモーダル予測デコーダー (MMPI) を使用して、画像表現内の特徴を集約します (2 行目)。 MMPI は DETR よりも大幅に優れており、mAP が 1.3%、NDS が 1.0% 向上し、設計の組み合わせが柔軟です。表 3(c) では、さまざまなデコーダ層が検出パフォーマンスに及ぼす影響をさらに調査しています。5 層のデコーダを追加すると、パフォーマンスが向上し続けることがわかります。最後に、トレーニングとテストで使用したクエリ数のさまざまな組み合わせを比較しました。さまざまな選択の下でパフォーマンスは安定していましたが、トレーニング/テストの最適な設定として 200/300 が使用されました。
表 3 デコーダーのアブレーション実験
エンコーダーのアブレーション実験表 4 エンコーダのアブレーション実験
2 つの異なるレーザーを使用したレーダー バックボーン ネットワーク: PointPillar と VoxelNet を使用してフレームワークの汎用性を確認します。 PointPillars の場合、ボクセル サイズを (0.2m, 0.2m) に設定し、残りの設定は DeepInteraction-base と同じにします。提案されたマルチモーダル インタラクション戦略により、DeepInteraction は、いずれかのバックボーンを使用した場合に LIDAR のみのベースラインと比較して一貫した改善を示しました (ボクセルベースのバックボーンでは 5.5% mAP、ピラーベースのバックボーンでは 4.4% mAP)。これは、さまざまな点群エンコーダ間の DeepInteraction の多用途性を反映しています。
#表 5 さまざまな LIDAR バックボーンの評価以上が変圧器を使用して、ライダー、ミリ波レーダー、視覚的特徴を効果的に関連付けるにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。