ホームページ >テクノロジー周辺機器 >AI >BEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)
現在、自動運転技術が成熟し、自動運転認知タスクの需要が高まる中、産業界や学界はBEV 空間に基づく 3 次元ターゲット検出とセマンティック セグメンテーション タスクを同時に完了できる理想的な知覚アルゴリズム モデルが非常に期待されています。自動運転可能な車両には、通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーが搭載されており、さまざまなモダリティでデータを収集します。これにより、異なるモーダル データ間の補完的な利点が最大限に活用され、たとえば、3D 点群データは 3D ターゲット検出タスクに情報を提供でき、カラー画像データはセマンティック セグメンテーション タスクに多くの情報を提供できます。 。 正確な情報。 異なるモーダルデータ間の補完的な利点を考慮すると、異なるモーダルデータの有効な情報を同じ座標系に変換することで、その後の共同処理や意思決定が容易になります。例えば、3D点群データをBEV空間に基づく点群データに変換したり、サラウンドビューカメラの画像データをカメラの内部パラメータと外部パラメータのキャリブレーションを通じて3D空間に投影したりすることで、一元的な処理を実現します。異なるモーダルデータ。異なるモーダル データを利用することで、単一モーダル データよりも正確な知覚結果を取得できます。 現在では、マルチモーダル知覚アルゴリズム モデルをすでに車両に展開して、より堅牢で正確な空間知覚結果を出力することができ、正確な空間知覚結果を通じて、自動運転機能の実現に対してより信頼性が高く安全な保証を提供できます。
最近、Transformer ネットワーク フレームワークに基づく多感覚およびマルチモーダル データ融合のための多くの 3D 認識アルゴリズムが学術界や産業界で提案されていますが、それらはすべて Transformer のクロスアテンション メカニズムを使用して、多機能を実現します。感覚データとマルチモーダル データの融合。モーダル データを融合して、理想的な 3D ターゲット検出結果を実現します。ただし、このタイプのマルチモーダル特徴融合方法は、BEV 空間に基づくセマンティック セグメンテーション タスクには完全に適しているわけではありません。さらに、クロスアテンション メカニズムを使用して異なるモダリティ間の情報融合を完了することに加えて、多くのアルゴリズムは LSA で順方向ベクトル変換を使用して融合された特徴を構築しますが、次のようないくつかの問題もあります。 (制限ワード数、詳細な説明は以下にあります) )。
最終モデルの知覚能力に影響を与える可能性があるマルチモーダル融合プロセスにおける上記の多くの問題を考慮し、生成モデルによって最近実証された強力なパフォーマンスを考慮して、このモデルは、複数のセンサー間のマルチモーダル融合およびノイズ除去タスクのために調査されています。これに基づいて、マルチモーダル知覚タスクを実装するための条件付き拡散に基づく生成モデル知覚アルゴリズム DifFUSER を提案します。下の図からわかるように、私たちが提案したDifFUSERマルチモーダルデータ融合アルゴリズムは、より効果的なマルチモーダル融合プロセスを実現できます。 ![DifFUSER マルチモーダル データ融合アルゴリズム](画像リンク) DifFUSER マルチモーダル データ融合アルゴリズムは、より効果的なマルチモーダル フュージョン プロセスを実現できます。この方法には主に 2 つの段階が含まれます。まず、生成モデルを使用して入力データのノイズを除去および強化し、クリーンでリッチなマルチモーダル データを生成します。次に、生成モデルによって生成されたデータは、より良い知覚効果を達成するためにマルチモーダル融合に使用されます。 DifFUSER アルゴリズムの実験結果は、私たちが提案したマルチモーダル データ融合アルゴリズムがより効果的なマルチモーダル融合プロセスを達成できることを示しています。マルチモーダル知覚タスクを実装する場合、このアルゴリズムはより効果的なマルチモーダル融合プロセスを実現し、モデルの知覚能力を向上させることができます。さらに、アルゴリズムのマルチモーダル データ融合アルゴリズムにより、より効率的なマルチモーダル融合プロセスを実現できます。要約
提案されたアルゴリズム モデルと他のアルゴリズム モデルの結果の視覚的な比較表
論文リンク: https://arxiv.org/pdf /2404.04629. pdf
「条件付き拡散モデルに基づくマルチタスク認識アルゴリズムである DifFUSER アルゴリズムのモジュールの詳細」 」は、タスクを意識した問題のアルゴリズムを解決するために使用される手法です。以下の図は、私たちが提案する DifFUSER アルゴリズムの全体的なネットワーク構造を示しています。 このモジュールでは、タスク認識問題を解決するための条件付き拡散モデルに基づくマルチタスク認識アルゴリズムを提案します。このアルゴリズムの目標は、ネットワーク内でタスク固有の情報を分散および集約することにより、マルチタスク学習のパフォーマンスを向上させることです。 DifFUSER アルゴリズムの整数
提案された DifFUSER 知覚アルゴリズム モデルのネットワーク構造図
上図からわかるように、私たちが提案した DifFUSER ネットワーク構造には、主に 3 つのサブネットワーク、つまりバックボーン ネットワーク部分と DifFUSER のマルチ ネットワークが含まれています。 -mode 状態データ融合部分と最終的な BEV セマンティック セグメンテーション タスクのヘッド部分。 3D オブジェクト検出認識タスクの先頭部分。 バックボーン ネットワーク部分では、ResNet や VGG などの既存の深層学習ネットワーク アーキテクチャを使用して、入力データの高レベルの特徴を抽出します。 DifFUSER のマルチモーダル データ フュージョン部分は複数の並列ブランチを使用し、各ブランチはさまざまなセンサー データ タイプ (画像、LIDAR、レーダーなど) を処理するために使用されます。各ブランチには独自のバックボーン ネットワーク パーツがあり、
私たちが提案した漸進的センサー ドロップアウト トレーニング パラダイムを通じて、アルゴリズム モデルは、カメラ センサーと LIDAR センサーによって収集された 2 つのモーダル データの分布を使用して欠落している特徴を再構築し、それによって過酷な条件で最高のパフォーマンスを達成できます。優れた適応性と堅牢性。具体的には、画像データと LIDAR 点群データの特徴を 3 つの異なる方法で利用します。トレーニング ターゲットとして、拡散モジュールへのノイズ入力として、センサーの紛失または誤動作の状況をシミュレートします。トレーニング中に、カメラ センサーまたは LIDAR センサー入力の損失率を 0 から事前定義された最大値 a = 25 まで徐々に増加させます。プロセス全体は次の式で表すことができます:
このうち、 は現在のモデルが含まれるトレーニング ラウンドの数を表し、特徴内の各特徴がドロップされる確率を表すドロップアウトの確率を定義します。この漸進的なトレーニング プロセスを通じて、モデルは効果的にノイズを除去し、より表現力豊かな特徴を生成するようにトレーニングされるだけでなく、単一のセンサーへの依存を最小限に抑え、それによって不完全なセンサーの処理を強化し、データの復元力を高めます。
具体的には、ゲート自己調整変調拡散モジュール ネットワーク構造は以下の図に示されています。
ゲート自己条件付き変調拡散モジュールのネットワーク構造の概略図
まず、提案されたアルゴリズム モデル DifFUSER のパフォーマンスを、セマンティック セグメンテーション タスクにおける他のマルチモーダル フュージョン アルゴリズムと比較しました。具体的な実験結果を次の表に示します。
nuScenes データセット上の BEV 空間ベースのセマンティック セグメンテーション タスクにおけるさまざまなアルゴリズム モデルの実験結果の比較実験結果から、私たちが提案したアルゴリズム モデルのパフォーマンスがベースライン モデルよりも優れていることがわかります。大幅な改善が見られました。具体的には、BEVFusion モデルの mIoU 値はわずか 62.7% ですが、私たちが提案したアルゴリズム モデルは 69.1% に達し、6.4% ポイント改善しました。これは、私たちが提案したアルゴリズムがさまざまなカテゴリでより多くの利点があることを示しています。さらに、下の図は、私たちが提案したアルゴリズム モデルの利点をより直感的に示しています。具体的には、BEVFusion アルゴリズムは、特にセンサーの位置ずれがより明らかな長距離シナリオでは、不十分なセグメンテーション結果を出力します。比較すると、私たちのアルゴリズム モデルはより正確なセグメンテーション結果を持ち、詳細がより明白でノイズが少なくなります。
提案されたアルゴリズム モデルとベースライン モデルのセグメンテーション視覚化結果の比較
さらに、提案されたアルゴリズム モデルを他の 3D ターゲットと比較します。検出アルゴリズム モデル 比較のために、特定の実験結果を以下の表に示します
##nuScenes データ セットの 3D ターゲット検出タスクにおけるさまざまなアルゴリズム モデルの実験結果の比較
合格 表にリストされた結果からわかるように、私たちが提案したアルゴリズム モデル DifFUSER は、ベースライン モデルと比較して NDS と mAP の両方の指標を改善しました。ベースライン モデル BEVFusion の NDS 72.9% と mAP 70.2% と比較して、私たちのアルゴリズムでは、モデルはそれぞれ 1.8% と 1.0% 高くなります。関連する指標の改善は、私たちが提案したマルチモーダル拡散融合モジュールが特徴削減と特徴改善プロセスに効果的であることを示しています。 さらに、センサーの故障または閉塞の場合における、提案したアルゴリズム モデルの知覚的な堅牢性を示すために、以下の図に示すように、関連するセグメンテーション タスクの結果を比較しました。さまざまな状況下でのアルゴリズムのパフォーマンスの比較
上の図からわかるように、サンプリングが十分であれば、提案したアルゴリズム モデルは次のようになります。効果的 欠落している機能の補正は、欠落しているセンサーで収集された情報の代替として使用されます。私たちが提案する DifFUSER アルゴリズム モデルの合成特徴を生成して利用する機能により、単一のセンサー モダリティへの依存が効果的に軽減され、モデルが多様で困難な環境でもスムーズに実行できるようになります。次の図は、提案した DifFUSER アルゴリズム モデルの BEV 空間の 3D ターゲット検出とセマンティック セグメンテーションの結果を視覚化したものです。提案されたアルゴリズム モデルには、優れた検出効果とセグメンテーション効果があります。
本稿では、拡散モデルに基づいて、ネットワーク モデル アーキテクチャを構築し、拡散モデルのノイズ除去特性を利用してネットワーク モデルの融合品質を向上させます。 Nuscenes データセットの実験結果は、私たちが提案したアルゴリズム モデルが BEV 空間のセマンティック セグメンテーション タスクにおいて SOTA セグメンテーション パフォーマンスを達成し、3D ターゲット検出タスクにおいて現在の SOTA アルゴリズム モデルと同様の検出パフォーマンスを達成できることを示しています。
以上がBEVFusionを超えて! DifFUSER: 普及モデルが自動運転マルチタスクに参入 (BEV セグメンテーション + 検出デュアル SOTA)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。