ホームページ >テクノロジー周辺機器 >AI >DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

PHPz転載: 2024-03-21 17:21:09521ブラウズ

この論文では、自動運転においてさまざまな視点 (透視図や鳥瞰図など) から物体を正確に検出するという問題、特に透視図から物体を効果的に検出する方法について検討します。 (PV) から鳥瞰図 (BEV) への空間変換機能。この変換は視覚変換 (VT) モジュールを通じて実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応関係のアテンションウェイトを学習します。これにより、計算と展開の複雑さが増大します。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

論文では、HeightFormer や FB-BEV などの既存の手法がこれら 2 つの VT 戦略を組み合わせようとしているが、これらの手法は通常、次の理由により 2 段階の戦略を採用していると指摘しています。デュアル VT の特性変換は異なり、初期機能のパフォーマンスによって制限されるため、デュアル VT 間のシームレスな融合が妨げられます。さらに、これらの方法は、自動運転のリアルタイム展開を実現する上で依然として課題に直面しています。

これらの問題に対応して、この論文では、2D から 3D、および 3D から 2D の視覚変換に適した統一された特徴変換方法を提案し、3 つの確率測定を使用して 3D と 2D の特徴間の対応関係を評価します。 : BEV確率、射影確率、画像確率。この新しい方法は、特徴の構築における BEV グリッド内の空白領域の影響を軽減し、複数の対応を区別し、特徴変換プロセス中に背景の特徴を除外することを目的としています。

この統一された特徴変換を適用することにより、この論文では畳み込みニューラルネットワーク (CNN) を使用した 3D から 2D への視覚変換の新しい方法を検討し、HeightTrans と呼ばれる方法を紹介します。優れたパフォーマンスを実証することに加えて、事前計算による加速の可能性も実証しており、リアルタイム自動運転アプリケーションに適しています。同時に、この特徴変換を統合することにより、従来の LSS プロセスが強化され、現在の検出器に対する汎用性が実証されます。

HeightTrans と Prob-LSS を組み合わせたこの論文では、DualBEV を紹介します。これは、BEV とパースビューからの対応を 1 段階で考慮して融合し、初期特徴量の依存性を排除する革新的な手法です。さらに、デュアル機能融合 (DFF) モジュールと呼ばれる強力な BEV 機能融合モジュールが提案されており、チャネルアテンションモジュールと空間アテンションモジュールを利用して BEV 確率予測をさらに改良することができます。 DualBEV は、「広範な入力、厳密な出力」の原則に従い、正確なデュアルビューの確率対応を利用してシーンの確率分布を理解して表現します。

この論文の主な貢献は次のとおりです:

3D から 2D、および 2D から 3D への視覚変換間の本質的な類似性を明らかにし、BEV ビューとパースビューの両方からの対応を正確に確立できる統一された特徴変換方法を提案し、これにより 2 つの戦略間のギャップが狭まることが示されています。
新しい CNN ベースの 3D から 2D への視覚変換手法 HeightTrans が提案されます。これは、確率サンプリングとルックアップテーブルの事前計算を通じて、効果的かつ効率的に正確な 3D-2D 対応を確立します。
DFF は、デュアルビュー機能融合のために導入されており、この融合戦略は、近距離領域と遠距離領域の情報を 1 つの段階でキャプチャし、それによって包括的な BEV 特徴を生成します。
彼らの効率的なフレームワーク DualBEV は、Transformer を使用しない場合でも、nuScenes テストセットで 55.2% の mAP と 63.4% の NDS を達成しており、ビュー変換のための正確なデュアルビューの対応をキャプチャすることの重要性を強調しています。

これらの革新を通じて、この論文は、既存の方法の限界を克服し、自動運転などのリアルタイムのアプリケーションシナリオでより効率的かつ正確な物体検出を達成するための新しい戦略を提案します。

DualBEV の詳細説明

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

本稿で提案する手法は、統合された特徴変換により自動運転の問題を解決することを目的としています。フレームワーク、DualBEV. BEV (鳥瞰図) オブジェクト検出の問題。以下は、「メソッド」セクションの主な内容であり、そのさまざまなサブセクションと主要な革新の概要を示しています。

DualBEV の概要

DualBEV の処理フローは、複数のカメラから取得した画像の特徴から始まります、その後、SceneNet を使用してインスタンスマスクを生成しますそして深度マップ . 次に、HeightTrans モジュールと Prob-LSS パイプラインを通じて特徴が抽出および変換され、最後にこれらの特徴が融合され、BEV 空間の確率分布を予測するために使用されます、最終的な BEV 機能を取得するには、後続のタスクに使用します。

HeightTrans

HeightTrans は、3D 位置を選択して画像空間に投影し、これらの 3D-2D 対応を評価することにより、3D から 2D への視覚変換の原理に基づいています。この方法では、最初に事前定義された BEV マップ内の 3D ポイントのセットをサンプリングし、次にこれらの対応関係を慎重に検討およびフィルタリングして BEV 特徴を生成します。 HeightTrans は、多重解像度サンプリング戦略と確率サンプリング方法を採用することで、小さなオブジェクトへの注目を高め、背景ピクセルによって引き起こされる誤解を招く問題を解決します。さらに、空白の BEV グリッドの問題は、BEV 確率を導入することで解決されます。 HeightTrans モジュールは、この論文で提案されている主要なテクノロジーの 1 つであり、3D から 2D への視覚変換 (VT) によるフィーチャの処理と変換に焦点を当てています。これは、事前定義された鳥瞰図 (BEV) マップから 3D 位置を選択し、これらの位置を画像空間に投影することに基づいており、それによって 3D と 2D の間の対応関係が評価されます。以下は、HeightTrans の仕組みの詳細な紹介です:

BEV Height

HeightTrans メソッドは、高さを処理するときに複数解像度のサンプリング戦略を採用し、高さの範囲全体をカバーします。 (-5 メートルから 3 メートルまで)、関心領域 (ROI、-2 メートルから 2 メートルとして定義) 内の解像度は 0.5 メートル、この範囲外は 1.0 メートルです。この戦略は、粗い解像度のサンプリングでは見逃される可能性のある小さなオブジェクトに焦点を当てるのに役立ちます。

Prob-Sampling

HeightTrans は、確率サンプリングで次の手順を採用します。

3D サンプリングポイントの定義 : 一連の 3D サンプリングポイントを事前定義します。各点は 3D 空間での位置によって定義されます。
2D 空間への投影 : カメラの外部パラメータマトリックスと内部パラメータマトリックスを使用して、3D ポイントを 2D 画像空間内のポイントに投影します。、はポイントの深さを表します。
特徴サンプリング: バイリニアグリッドサンプラーを使用する投影された位置での画像特徴のサンプリング :
インスタンスマスクを使用する : 投影位置が背景ピクセルに重なるのを避けるために、SceneNet によって生成されたインスタンスマスクを使用して画像の確率を表します、誤解を招く情報の影響を軽減するために、画像の特徴に適用されます。
複数の対応関係の処理: トリリニアグリッドサンプラーの使用深度マップ内では、複数の 3D 点が同じ 2D 位置にマッピングされる状況、つまり投影確率を評価します。 :
BEV 確率の導入 : BEV グリッドのギャップを解決するグリッドは有用な情報を提供しないため、BEV 確率が BEV グリッドの占有確率を表すために導入されます。ここで、は BEV 内の位置です。 space:

Acceleration

BEV 空間内の 3D ポイントのインデックスを事前計算し、推論中に画像特徴インデックスと深度マップインデックスを固定することにより、HeightTrans視覚的な変換プロセスを加速できます。最後の HeightTrans 機能は、BEV メッシュごとに

Prob-LSS

を事前定義することで、従来の LSS (Lift、Splat、Shoot) を拡張します。 BEV 空間の深度確率を予測します。この方法では、BEV 確率をさらに統合して、次の式を通じて LSS 特徴を構築します。

そうすることで、深度推定の不確実性をより適切に処理できるため、BEV 空間内の冗長な情報が削減されます。

二重特徴融合 (DFF)

DFF モジュールは、HeightTrans と Prob-LSS の特徴を融合し、BEV 確率を効果的に予測するように設計されています。チャネルアテンションモジュールと空間アテンション拡張 ProbNet を組み合わせることで、DFF は特徴選択と BEV 確率予測を最適化し、近くのオブジェクトと遠くのオブジェクトの表現を強化できます。この融合戦略では、2 つのストリームからの特徴の相補性が考慮されると同時に、ローカルおよびグローバルアテンションを計算することで BEV 確率の精度も向上します。

つまり、この論文で提案する DualBEV フレームワークは、HeightTrans と Prob-LSS、および革新的な二重特徴融合モジュールを組み合わせることにより、3D 特徴と 2D 特徴の間の対応関係の効率的な評価と変換を実現します。これにより、2D から 3D、および 3D から 2D への変換戦略の間のギャップを埋めるだけでなく、事前計算と確率測定を通じて特徴変換プロセスが高速化され、リアルタイム自動運転アプリケーションに適したものになります。

この方法の鍵は、さまざまな視野角からの特徴の正確な対応と効率的な融合であり、それによって BEV 物体検出で優れたパフォーマンスを実現します。

実験

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

DualBEV メソッドのバリアント (DualBEV* アスタリスク付き) は、単一フレーム入力条件下で最高のパフォーマンスを発揮します。 35.2% の mAP と 42.5% の NDS を達成し、精度と総合的なパフォーマンスの両方で他の方法を上回っていることを示しています。特に mAOE では、DualBEV* は 0.542 というスコアを達成し、これはシングルフレーム方式の中で最高です。ただし、mATE および mASE でのパフォーマンスは他の方法よりも大幅に優れているわけではありません。

入力フレーム数が 2 フレームに増加すると、DualBEV のパフォーマンスはさらに向上し、mAP は 38.0% に達し、NDS は 50.4% に達しました。これは、リストされているすべての方法の中で最高の NDS であり、DualBEV がより多くの処理を処理できることを示しています。複雑な入力シナリオをより完全に理解します。マルチフレーム手法の中でも、mATE、mASE、mAAE で優れたパフォーマンスを示し、特に mAOE で大幅な改善が見られ、物体の方向を推定する際にその利点が示されています。

これらの結果から、DualBEV とそのバリアントは、複数の重要なパフォーマンス指標、特にマルチフレーム設定で良好なパフォーマンスを示していることが分析でき、BEV 物体検出タスクの精度と堅牢性において優れたパフォーマンスを備えていることがわかります。さらに、これらの結果は、モデルの全体的なパフォーマンスと推定精度を向上させるためにマルチフレームデータを使用することの重要性も強調しています。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

各アブレーション実験の結果の分析は次のとおりです:

ProbNet、HeightTrans、CAF (Channel Attendant Fusion)、SAE を追加します。 (Spatial Attendant Fusion) Enhanced) およびその他のコンポーネントにより、Baseline のパフォーマンスが徐々に向上します。
HeightTrans の追加により、mAP と NDS が大幅に改善されました。これは、視覚的変換に高さ情報を導入することが効果的であることを示しています。
CAF は mAP をさらに改善しますが、遅延がわずかに増加します。
SAE の導入により、NDS が最大 42.5% に増加し、mAP も改善されました。これは、空間注意メカニズムがモデルのパフォーマンスを効果的に向上させたことを示しています。
さまざまな確率尺度 (投影確率、画像確率、BEV 確率 ) が比較テストに徐々に追加されます。
モデルは、3 つの確率すべてを同時に使用したときに最高の mAP と NDS を達成しました。これは、これらの確率の組み合わせがモデルのパフォーマンスにとって重要であることを示しています。
Prob-Sampling は、同様の遅延 (0.32ms) で他の VT 操作よりも高い NDS (39.0%) を示し、確率的サンプリングのパフォーマンスの優位性を強調しています。
多重解像度 (MR) サンプリング戦略は、同じ数のサンプリングポイントを使用する場合、均一サンプリング戦略と同等以上のパフォーマンスを達成できます。
投影確率、画像確率、BEV 確率を LSS プロセスに追加することにより、Prob-LSS は他の LSS バリアントよりも優れたパフォーマンスを発揮し、mAP と NDS を改善し、これらの確率を組み合わせる有効性を示しています。
複数ステージの Refine 戦略と比較して、単一ステージの Add 戦略と DFF モジュールは両方ともより高い NDS を達成でき、DFF では mAP もわずかに向上しています。これは、単一ステージの融合としてこの戦略では、DFF は効率とパフォーマンスの点で有益です。

アブレーション実験は、HeightTrans、確率的測定、Prob-Sampling、DFF などのコンポーネントと戦略がモデルのパフォーマンスを向上させるために重要であることを示しています。さらに、高さ情報に対する多重解像度サンプリング戦略の使用も、その有効性を証明しています。これらの発見は、方法セクションで紹介されている各手法がモデルのパフォーマンスにプラスに寄与するという著者の主張を裏付けています。

ディスカッション

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!

この論文では、一連のアブレーション実験を通じてその方法のパフォーマンスを実証します。実験結果から、論文で提案された DualBEV フレームワークとそのさまざまなコンポーネントが鳥瞰図 (BEV) の物体検出の精度の向上にプラスの影響を与えていることがわかります。

この論文の手法では、ProbNet、HeightTrans、CAF (Channel Attendant Fusion)、および SAE (Spatial tention Enhanced) モジュールをベースラインモデルに段階的に導入し、mAP 指標と NDS 指標の両方で大幅な改善が見られます。これは、各コンポーネントが機能していることを証明しています。アーキテクチャ全体において重要な役割を果たします。特に SAE 導入後は、NDS スコアが最高の 42.5% まで上昇しましたが、遅延はわずかに増加しただけであり、精度と遅延のバランスが取れていることがわかります。

確率的アブレーション実験結果は、検出性能の向上における投影確率、画像確率、および BEV 確率の重要性をさらに確認します。これらの確率を 1 つずつ導入すると、システムの mAP スコアと NDS スコアが着実に向上し、これらの確率的尺度を BEV 物体検出タスクに統合することの重要性が示されています。

視覚変換 (VT) 操作の比較では、この論文で提案されている Prob-Sampling 手法は、SCAda や Bilinear-Sampling などの他の操作と比較して、待ち時間が短く、NDS スコアが高いことが示されており、その利点が強調されています。効率とパフォーマンス。さらに、異なる高さのサンプリング戦略の場合、均一サンプリングの代わりに多重解像度 (MR) 戦略を採用すると、NDS スコアをさらに向上させることができます。これは、検出パフォーマンスを向上させるために、シーン内のさまざまな高さでの情報を考慮することの重要性を示しています。

さらに、この論文では、さまざまな機能融合戦略について、DFF 手法がモデルを簡素化しながら高い NDS スコアを維持できることを示しています。これは、デュアルストリーム機能を 1 つのストリーム機能に融合することが効果的であることを意味します。ステージ加工工程。

ただし、この論文で提案されている方法は多くの点で良好に機能しますが、すべての改善はシステムの複雑さと計算コストの増加にもつながります。たとえば、新しいコンポーネント (ProbNet、HeightTrans など) が導入されるたびに、システムの遅延が増加します。遅延の増加はわずかですが、リアルタイムまたは低遅延の要件があるアプリケーションでは、検討事項になるかもしれません。さらに、確率的測定はパフォーマンスの向上に貢献しますが、これらの確率を推定するために追加のコンピューティングリソースも必要とするため、リソースの消費量が増加する可能性があります。

この論文で提案されている DualBEV 手法は、特に深層学習の最新の進歩と視覚変換技術の組み合わせにおいて、BEV 物体検出の精度と総合的なパフォーマンスの向上において顕著な成果を達成しました。ただし、これらの進歩には計算遅延とリソース消費のわずかな増加という代償が伴い、実際のアプリケーションではこれらの要素をケースバイケースで比較検討する必要があります。

結論

この方法は、BEV 物体検出タスクでうまく機能し、精度と全体的なパフォーマンスが大幅に向上します。 DualBEV は、確率的サンプリング、高さ変換、注意メカニズム、空間注意増強ネットワークを導入することにより、特に鳥瞰図 (BEV) の精度とシーン理解において、複数の主要なパフォーマンス指標を向上させることに成功しました。実験結果は、この論文の方法が、自動運転やその他のリアルタイム監視アプリケーションにとって重要な、さまざまな視点からの複雑なシーンやデータの処理に特に効果的であることを示しています。

以上がDualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 map channel 对象 cnn transformer mr

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：CMU Zhu Junyan 氏と Adobe の新作: 512x512 の画像推論、A100 はわずか 0.11 秒かかります次の記事：CMU Zhu Junyan 氏と Adobe の新作: 512x512 の画像推論、A100 はわずか 0.11 秒かかります

続きを見る