ホームページ >テクノロジー周辺機器 >AI >BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

WBOY
WBOY転載
2024-04-22 17:49:07539ブラウズ

文前&筆者の個人的理解

現在、自動運転技術が成熟し、自動運転認知タスクの需要が高まる中、産業界や学界はBEV 空間に基づく 3 次元ターゲット検出とセマンティック セグメンテーション タスクを同時に完了できる理想的な知覚アルゴリズム モデルが非常に期待されています。自動運転可能な車両には、通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーが搭載されており、さまざまなモダリティでデータを収集します。これにより、異なるモーダル データ間の補完的な利点が最大限に活用され、たとえば、3D 点群データは 3D ターゲット検出タスクに情報を提供でき、カラー画像データはセマンティック セグメンテーション タスクに多くの情報を提供できます。 。 正確な情報。 異なるモーダルデータ間の補完的な利点を考慮すると、異なるモーダルデータの有効な情報を同じ座標系に変換することで、その後の共同処理や意思決定が容易になります。例えば、3D点群データをBEV空間に基づく点群データに変換したり、サラウンドビューカメラの画像データをカメラの内部パラメータと外部パラメータのキャリブレーションを通じて3D空間に投影したりすることで、一元的な処理を実現します。異なるモーダルデータ。異なるモーダル データを利用することで、単一モーダル データよりも正確な知覚結果を取得できます。 現在では、マルチモーダル知覚アルゴリズム モデルをすでに車両に展開して、より堅牢で正確な空間知覚結果を出力することができ、正確な空間知覚結果を通じて、自動運転機能の実現に対してより信頼性が高く安全な保証を提供できます。

最近、Transformer ネットワーク フレームワークに基づく多感覚およびマルチモーダル データ融合のための多くの 3D 認識アルゴリズムが学術界や産業界で提案されていますが、それらはすべて Transformer のクロスアテンション メカニズムを使用して、多機能を実現します。感覚データとマルチモーダル データの融合。モーダル データを融合して、理想的な 3D ターゲット検出結果を実現します。ただし、このタイプのマルチモーダル特徴融合方法は、BEV 空間に基づくセマンティック セグメンテーション タスクには完全に適しているわけではありません。さらに、クロスアテンション メカニズムを使用して異なるモダリティ間の情報融合を完了することに加えて、多くのアルゴリズムは LSA で順方向ベクトル変換を使用して融合された特徴を構築しますが、次のようないくつかの問題もあります。 (制限ワード数、詳細な説明は以下にあります) )。

  • 現在提案されているマルチモーダル融合に関する3Dセンシングアルゴリズムでは、異なるモーダルデータ特徴の融合手法の設計が不十分であり、その結果、知覚アルゴリズムモデルが正確に捉えることができません。センサーデータ間の関係は複雑な接続関係にあり、それによってモデルの最終的な知覚パフォーマンスに影響を与えます。
  • 異なるセンサーからデータを収集するプロセスでは、無関係なノイズ情報が必然的に導入されます。異なるモダリティ間のこの固有のノイズにより、異なるモダリティの特徴を融合するプロセスにもノイズが混入し、結果として複数のノイズが発生します。不正確なモーダル特徴融合は、その後の知覚タスクに影響を与えます。

最終モデルの知覚能力に影響を与える可能性があるマルチモーダル融合プロセスにおける上記の多くの問題を考慮し、生成モデルによって最近実証された強力なパフォーマンスを考慮して、このモデルは、複数のセンサー間のマルチモーダル融合およびノイズ除去タスクのために調査されています。これに基づいて、マルチモーダル知覚タスクを実装するための条件付き拡散に基づく生成モデル知覚アルゴリズム DifFUSER を提案します。下の図からわかるように、私たちが提案したDifFUSERマルチモーダルデータ融合アルゴリズムは、より効果的なマルチモーダル融合プロセスを実現できます。 ![DifFUSER マルチモーダル データ融合アルゴリズム](画像リンク) DifFUSER マルチモーダル データ融合アルゴリズムは、より効果的なマルチモーダル フュージョン プロセスを実現できます。この方法には主に 2 つの段階が含まれます。まず、生成モデルを使用して入力データのノイズを除去および強化し、クリーンでリッチなマルチモーダル データを生成します。次に、生成モデルによって生成されたデータは、より良い知覚効果を達成するためにマルチモーダル融合に使用されます。 DifFUSER アルゴリズムの実験結果は、私たちが提案したマルチモーダル データ融合アルゴリズムがより効果的なマルチモーダル融合プロセスを達成できることを示しています。マルチモーダル知覚タスクを実装する場合、このアルゴリズムはより効果的なマルチモーダル融合プロセスを実現し、モデルの知覚能力を向上させることができます。さらに、アルゴリズムのマルチモーダル データ融合アルゴリズムにより、より効率的なマルチモーダル融合プロセスを実現できます。要約

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

提案されたアルゴリズム モデルと他のアルゴリズム モデルの結果の視覚的な比較表

論文リンク: https://arxiv.org/pdf /2404.04629. pdf

ネットワーク モデルの全体的なアーキテクチャと詳細

「条件付き拡散モデルに基づくマルチタスク認識アルゴリズムである DifFUSER アルゴリズムのモジュールの詳細」 」は、タスクを意識した問題のアルゴリズムを解決するために使用される手法です。以下の図は、私たちが提案する DifFUSER アルゴリズムの全体的なネットワーク構造を示しています。 このモジュールでは、タスク認識問題を解決するための条件付き拡散モデルに基づくマルチタスク認識アルゴリズムを提案します。このアルゴリズムの目標は、ネットワーク内でタスク固有の情報を分散および集約することにより、マルチタスク学習のパフォーマンスを向上させることです。 DifFUSER アルゴリズムの整数

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)提案された DifFUSER 知覚アルゴリズム モデルのネットワーク構造図

上図からわかるように、私たちが提案した DifFUSER ネットワーク構造には、主に 3 つのサブネットワーク、つまりバックボーン ネットワーク部分と DifFUSER のマルチ ネットワークが含まれています。 -mode 状態データ融合部分と最終的な BEV セマンティック セグメンテーション タスクのヘッド部分。 3D オブジェクト検出認識タスクの先頭部分。 バックボーン ネットワーク部分では、ResNet や VGG などの既存の深層学習ネットワーク アーキテクチャを使用して、入力データの高レベルの特徴を抽出します。 DifFUSER のマルチモーダル データ フュージョン部分は複数の並列ブランチを使用し、各ブランチはさまざまなセンサー データ タイプ (画像、LIDAR、レーダーなど) を処理するために使用されます。各ブランチには独自のバックボーン ネットワーク パーツがあり、

  • #: このパーツは主に、ネットワーク モデルへの 2D 画像データ入力と、出力用の対応する BEV セマンティック フィーチャの 3D LIDAR 点群データから特徴を抽出します。 。画像特徴を抽出するバックボーンネットワークとしては、主に2D画像バックボーンネットワークと透視変換モジュールから構成されます。 3D LIDAR 点群フィーチャを抽出するバックボーン ネットワークには、主に 3D 点群バックボーン ネットワークとフィーチャ Flatten モジュールが含まれます。
  • DifFUSER マルチモーダル データ融合部分
  • : 私たちが提案した DifFUSER モジュールは、階層的な双方向機能ピラミッド ネットワークの形式で相互にリンクされています。この構造を cMini-BiFPN と呼びます。この構造は、潜在的な拡散に代わる構造を提供し、さまざまなセンサー データからのマルチスケールおよび幅高さの詳細な特徴情報をより適切に処理できます。
  • BEV セマンティック セグメンテーション、3D ターゲット検出知覚タスク ヘッダー部分
  • : 私たちのアルゴリズム モデルは 3D ターゲット検出結果とセマンティック セグメンテーション結果を BEV 空間に同時に出力できるため、3D 知覚タスク ヘッダーには 3D が含まれます。検出ヘッドとセマンティック セグメンテーション ヘッド。さらに、私たちが提案したアルゴリズム モデルに含まれる損失には、拡散損失、検出損失、セマンティック セグメンテーション損失が含まれており、すべての損失を合計することで、ネットワーク モデルのパラメータがバックプロパゲーションによって更新されます。
  • 次に、モデルの各主要なサブ部分の実装の詳細を注意深く紹介します。

フュージョン アーキテクチャ設計 (Conditional-Mini-BiFPN、cMini-BiFPN)

自動運転システムの認識タスクの場合、アルゴリズム モデルは現在の外部信号を分析できます。環境をリアルタイムで認識することが重要であるため、拡散モジュールのパフォーマンスと効率を確保することが非常に重要です。したがって、私たちは双方向機能ピラミッド ネットワークからインスピレーションを得て、同様の条件を持つ BiFPN 拡散アーキテクチャを導入しました。これを Conditional-Mini-BiFPN と呼びます。その具体的なネットワーク構造を上の図に示します。

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

プログレッシブ センサー ドロップアウト トレーニング (PSDT)

自動運転車の場合自動運転取得センサーの性能は非常に重要であり、自動運転車両の日常運転中に、カメラセンサーやライダーセンサーがブロックされたり、誤動作したりする可能性が非常に高く、最終的な自動運転システムの性能に影響を与えます。そして業務効率化。この考慮に基づいて、センサーがブロックされる可能性がある状況で提案されたアルゴリズム モデルの堅牢性と適応性を強化するための、漸進的なセンサー ドロップアウト トレーニング パラダイムを提案しました。

私たちが提案した漸進的センサー ドロップアウト トレーニング パラダイムを通じて、アルゴリズム モデルは、カメラ センサーと LIDAR センサーによって収集された 2 つのモーダル データの分布を使用して欠落している特徴を再構築し、それによって過酷な条件で最高のパフォーマンスを達成できます。優れた適応性と堅牢性。具体的には、画像データと LIDAR 点群データの特徴を 3 つの異なる方法で利用します。トレーニング ターゲットとして、拡散モジュールへのノイズ入力として、センサーの紛失または誤動作の状況をシミュレートします。トレーニング中に、カメラ センサーまたは LIDAR センサー入力の損失率を 0 から事前定義された最大値 a = 25 まで徐々に増加させます。プロセス全体は次の式で表すことができます:

このうち、 は現在のモデルが含まれるトレーニング ラウンドの数を表し、特徴内の各特徴がドロップされる確率を表すドロップアウトの確率を定義します。この漸進的なトレーニング プロセスを通じて、モデルは効果的にノイズを除去し、より表現力豊かな特徴を生成するようにトレーニングされるだけでなく、単一のセンサーへの依存を最小限に抑え、それによって不完全なセンサーの処理を強化し、データの復元力を高めます。

ゲート自己調整変調拡散モジュール (GSM 拡散モジュール)

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

具体的には、ゲート自己調整変調拡散モジュール ネットワーク構造は以下の図に示されています。

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

ゲート自己条件付き変調拡散モジュールのネットワーク構造の概略図

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

## 実験結果と評価指標

##定量分析部分 ##提案したアルゴリズム モデル DifFUSER の知覚結果を複数の環境で検証するために、タスクでは、主に nuScenes データを使用しました。3D ターゲット検出と BEV 空間に基づくセマンティック セグメンテーションの実験がセットで行われました。

まず、提案されたアルゴリズム モデル DifFUSER のパフォーマンスを、セマンティック セグメンテーション タスクにおける他のマルチモーダル フュージョン アルゴリズムと比較しました。具体的な実験結果を次の表に示します。

nuScenes データセット上の BEV 空間ベースのセマンティック セグメンテーション タスクにおけるさまざまなアルゴリズム モデルの実験結果の比較

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA) 実験結果から、私たちが提案したアルゴリズム モデルのパフォーマンスがベースライン モデルよりも優れていることがわかります。大幅な改善が見られました。具体的には、BEVFusion モデルの mIoU 値はわずか 62.7% ですが、私たちが提案したアルゴリズム モデルは 69.1% に達し、6.4% ポイント改善しました。これは、私たちが提案したアルゴリズムがさまざまなカテゴリでより多くの利点があることを示しています。さらに、下の図は、私たちが提案したアルゴリズム モデルの利点をより直感的に示しています。具体的には、BEVFusion アルゴリズムは、特にセンサーの位置ずれがより明らかな長距離シナリオでは、不十分なセグメンテーション結果を出力します。比較すると、私たちのアルゴリズム モデルはより正確なセグメンテーション結果を持ち、詳細がより明白でノイズが少なくなります。

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)提案されたアルゴリズム モデルとベースライン モデルのセグメンテーション視覚化結果の比較

さらに、提案されたアルゴリズム モデルを他の 3D ターゲットと比較します。検出アルゴリズム モデル 比較のために、特定の実験結果を以下の表に示します

##nuScenes データ セットの 3D ターゲット検出タスクにおけるさまざまなアルゴリズム モデルの実験結果の比較BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

合格 表にリストされた結果からわかるように、私たちが提案したアルゴリズム モデル DifFUSER は、ベースライン モデルと比較して NDS と mAP の両方の指標を改善しました。ベースライン モデル BEVFusion の NDS 72.9% と mAP 70.2% と比較して、私たちのアルゴリズムでは、モデルはそれぞれ 1.8% と 1.0% 高くなります。関連する指標の改善は、私たちが提案したマルチモーダル拡散融合モジュールが特徴削減と特徴改善プロセスに効果的であることを示しています。

さらに、センサーの故障または閉塞の場合における、提案したアルゴリズム モデルの知覚的な堅牢性を示すために、以下の図に示すように、関連するセグメンテーション タスクの結果を比較しました。

さまざまな状況下でのアルゴリズムのパフォーマンスの比較BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

上の図からわかるように、サンプリングが十分であれば、提案したアルゴリズム モデルは次のようになります。効果的 欠落している機能の補正は、欠落しているセンサーで収集された情報の代替として使用されます。私たちが提案する DifFUSER アルゴリズム モデルの合成特徴を生成して利用する機能により、単一のセンサー モダリティへの依存が効果的に軽減され、モデルが多様で困難な環境でもスムーズに実行できるようになります。

定性分析部分

次の図は、提案した DifFUSER アルゴリズム モデルの BEV 空間の 3D ターゲット検出とセマンティック セグメンテーションの結果を視覚化したものです。提案されたアルゴリズム モデルには、優れた検出効果とセグメンテーション効果があります。

BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)

結論

本稿では、拡散モデルに基づいて、ネットワーク モデル アーキテクチャを構築し、拡散モデルのノイズ除去特性を利用してネットワーク モデルの融合品質を向上させます。 Nuscenes データセットの実験結果は、私たちが提案したアルゴリズム モデルが BEV 空間のセマンティック セグメンテーション タスクにおいて SOTA セグメンテーション パフォーマンスを達成し、3D ターゲット検出タスクにおいて現在の SOTA アルゴリズム モデルと同様の検出パフォーマンスを達成できることを示しています。

以上がBEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。