論文のタイトル:
DiffMap: 拡散モデルを使用したマップ事前のマップセグメンテーションの強化
論文の著者:
Peijin Jia、Tuopu Wen、Ziang Luo、Mengmeng Yang、Kun Jiang、クァン・レイ、 Xuewei Tang、Ziyuan Liu、Le Cui、Kehua Sheng、Bo Zhang、Diange Yang
01 背景の紹介
自動運転車の場合、高解像度 (HD) マップは環境への理解を深めるのに役立ちます(知覚) ) 精度とナビゲーションの精度。ただし、手動マッピングには複雑さとコストがかかるという問題があります。この目的を達成するために、現在の研究では、BEV (鳥瞰図) 認識タスクにマップ構築を統合しています。BEV 空間でラスター化された HD マップを構築することは、FCN と同様のものの使用を追加すると理解できます。 (フルボリューム) BEV 特徴を取得した後、製品ネットワークのセグメンテーション ヘッド)。たとえば、HDMapNet は、LSS (Lift、Splat、Shoot) を介してセンサー機能をエンコードし、セマンティック セグメンテーション、インスタンス検出、および方向予測に多重解像度 FCN を使用してマップを構築します。
しかし、現時点では、そのような方法 (ピクセルベースの分類方法) には依然として固有の制限があり、特定の分類属性を無視する可能性が含まれ、これにより中央分離帯の歪みや中断、ぼやけた横断歩道、その他の種類のアーティファクトが発生する可能性があります。図 1(a) に示すように、ノイズが発生します。これらの問題は、地図の構造精度に影響を与えるだけでなく、自動運転システムの下流の経路計画モジュールにも直接影響を与える可能性があります。
▲ 図1|HDMapNet、DiffMap、GroundTruthの効果の比較
したがって、モデルはHDマップの平行や直線などの構造的な事前情報を考慮することが最善です車線の特徴。一部の生成モデルには、画像の信頼性と固有の特性を捉えるこの機能があります。たとえば、LDM (潜在拡散モデル) は、高忠実度の画像生成において大きな可能性を示し、セグメンテーション強化に関連するタスクにおいてその有効性が証明されています。さらに、制御変数を導入して、特定の制御要件を満たすように画像生成をさらにガイドすることができます。したがって、マップ構造の事前分布を取得するために生成モデルを適用すると、セグメンテーション アーティファクトが削減され、マップ構築のパフォーマンスが向上することが期待されます。
この記事で、著者は DiffMap ネットワークについて言及しました。このネットワークは初めて、既存のセグメンテーション モデルに対してマップ構造化された事前モデリングを実行し、改良された LDM を拡張モジュールとして使用することでプラグ アンド プレイをサポートします。 DiffMap は、ノイズの追加と除去のプロセスを通じて事前にマップを学習して、出力が現在のフレームの観測値と一致することを確認するだけでなく、BEV 機能を制御信号として統合して、出力が現在のフレームの観測値と一致することを確認することもできます。実験結果は、DiffMap がアーティファクトを大幅に削減し、全体的なマップ構築パフォーマンスを向上させながら、よりスムーズで合理的なマップ セグメンテーション結果を効果的に生成できることを示しています。
02 関連作業
2.1 セマンティック マップの構築
従来の高解像度 (HD) マップの構築では、通常、セマンティック マップは LIDAR 点群に基づいて手動または半自動で注釈が付けられます。一般に、グローバルに一貫したマップは SLAM アルゴリズムに基づいて構築され、意味論的な注釈が手動でマップに追加されます。ただし、このアプローチは時間と労力がかかり、マップの更新に大きな課題が生じるため、そのスケーラビリティとリアルタイム パフォーマンスが制限されます。
HDMapNet は、オンボードセンサーを使用してローカルセマンティックマップを動的に構築する方法を提案しています。 LIDAR 点群とパノラマ画像の特徴を鳥瞰図 (BEV) 空間にエンコードし、3 つの異なるヘッドを使用してデコードし、最終的にベクトル化されたローカル セマンティック マップを生成します。 SuperFusion は、長距離の高精度セマンティック マップの構築、LIDAR 深度情報を使用して画像深度推定を強化すること、および画像特徴を使用して長距離 LIDAR 特徴予測をガイドすることに重点を置いています。次に、HDMapNet と同様のマップ検出ヘッドを使用して、セマンティック マップを取得します。 MachMap はタスクをポリライン検出とポリゴン インスタンス セグメンテーションに分割し、後処理を使用してマスクを調整して最終結果を取得します。その後の研究は、ベクトル化された高精細地図を直接取得するためのエンドツーエンドのオンライン マッピングに焦点を当てています。手動の注釈を使用しないセマンティック マップの動的な構築により、構築コストが効果的に削減されます。
2.2 セグメンテーションと検出に適用される拡散モデル
ノイズ除去拡散確率モデル (DDPM) は、マルコフ連鎖に基づく生成モデルの一種で、画像生成などの分野で優れたパフォーマンスを示し、段階的に拡張されています。セグメンテーションや検出などのさまざまなタスクに使用できます。 SegDiff は拡散モデルを画像セグメンテーション タスクに適用します。このタスクでは、使用される UNet エンコーダーがさらに 3 つのモジュール (E、F、G) に分離されます。モジュール G と F はそれぞれ入力画像 I とセグメンテーション マップをエンコードし、これらは E で加算的にマージされ、セグメンテーション マップを反復的に改良します。 DDPMS は、基本セグメンテーション モデルを使用して初期事前予測を生成し、拡散モデルを使用して事前予測を改良します。 DiffusionDet は、拡散モデルをターゲット検出フレームワークに拡張し、ノイズ ボックスからターゲット ボックスへのノイズ除去拡散プロセスとしてターゲット検出をモデル化します。
拡散モデルは自動運転の分野でも使用されており、幾何学的制約を使用して街路シーンを合成する MagicDrive や、拡散モデルをマルチエージェントの動作予測問題に拡張する Motiondiffuser などがあります。
2.3 事前マップ
現在、事前情報 (明示的な標準地図情報と暗黙的な時間情報を含む) 不確実性を利用してモデルの堅牢性を強化し、車両センサーの負荷を軽減する方法がいくつかあります。 MapLite2.0 は、標準解像度 (SD) の以前の地図を出発点として使用し、それをオンボード センサーと組み合わせて、ローカルの高解像度地図をリアルタイムで推論します。 MapEx と SMERF は、標準の地図データを活用して、車線の認識とトポロジの理解を向上させます。 SMERF は、Transformer ベースの標準地図エンコーダを採用して車線境界線と車線タイプをエンコードし、標準地図情報とセンサーベースの鳥瞰図 (BEV) 機能の間の相互注意を計算して標準地図情報を統合します。 NMP は、過去の地図以前のデータと現在の認識データを組み合わせることで、自動運転車に長期記憶機能を提供します。 MapPrior は、識別モデルと生成モデルを組み合わせ、既存のモデルに基づいて生成された予備予測を予測フェーズ中に事前予測としてエンコードし、生成モデルの離散潜在空間を注入して、生成モデルを使用して予測を改良します。 PreSight は、以前の旅行からのデータを使用して、都市規模の神経放射線場を最適化し、神経事前分布を生成し、その後のナビゲーションでのオンライン認識を強化します。
03 メソッド分析
3.1 準備
3.2 全体的なアーキテクチャ
図2に示すように。デコーダとして、DiffMap は拡散モデルをセマンティック マップ セグメンテーション モデルに組み込み、周囲のマルチビュー画像と LiDAR 点群を入力として受け取り、それらを BEV 空間にエンコードして、融合された BEV 特徴を取得します。次に、DiffMap をデコーダとして使用してセグメンテーション マップを生成します。 DiffMap モジュールでは、BEV 特徴がノイズ除去プロセスをガイドする条件として使用されます。
▲ 図2|DiffMapアーキテクチャ ©️[Deep Blue AI]でコンパイルされた
◆セマンティックマップ構築のベースライン: ベースラインは主にBEVエンコーダ-デコーダパラダイムに従います。エンコーダ部分は、入力データ (LiDAR および/またはカメラ データ) から特徴を抽出し、それを高次元表現に変換する役割を果たします。同時に、デコーダは通常、高次元の特徴表現を対応するセグメンテーション マップにマッピングするセグメンテーション ヘッドとして機能します。ベースラインは、フレームワーク全体でスーパーバイザーとコントローラーという 2 つの主要な役割を果たします。スーパーバイザとして、ベースラインは補助的な監視としてセグメンテーション結果を生成します。同時に、コントローラーとして、中間の BEV 特性を条件付き制御変数として提供し、拡散モデルの生成プロセスをガイドします。
◆DiffMap モジュール: LDM に続いて、著者はベースライン フレームワークのデコーダとして DiffMap モジュールを紹介します。 LDM は主に、画像認識圧縮モジュール (VQVAE など) と UNet を使用して構築された拡散モデルの 2 つの部分で構成されます。まず、エンコーダはマップ セグメンテーションのグラウンド トゥルースを潜在空間にエンコードします。ここで、 は潜在空間の低次元を表します。続いて、低次元の潜在変数空間で拡散とノイズ除去が実行され、デコーダを使用して潜在空間を元のピクセル空間に復元します。
まず、拡散プロセスを通じてノイズを追加し、各タイム ステップでノイズ ポテンシャル マップを取得します。その後、ノイズ除去プロセス中に、UNet がノイズ予測のバックボーン ネットワークとして機能します。セグメンテーション結果の監視部分を強化するために、DiffMap モデルがトレーニング中にインスタンス関連の予測の意味論的特徴を直接提供することが期待されます。したがって、著者は UNet ネットワーク構造を 2 つのブランチに分割し、1 つのブランチは従来の拡散モデルなどのノイズの予測に使用され、もう 1 つのブランチは潜在空間のノイズの予測に使用されます。
図 3 に示すとおり。潜在マップ予測を取得した後、意味論的特徴マップとして元のピクセル空間に復号化されます。次に、HDMapNet が提案する方法に従ってインスタンス予測をそれらから取得でき、セマンティック セグメンテーション、インスタンスの埋め込み、およびレーンの方向という 3 つの異なるヘッドの予測を出力できます。これらの予測は後処理ステップで使用され、マップがベクトル化されます。
▲図3|ノイズ除去モジュール
プロセス全体は条件付き生成プロセスであり、マップ セグメンテーションの結果は現在のセンサー入力に基づいて取得されます。結果の確率分布は次のようにモデル化できます。 ここで、 はマップ分割結果を表し、 は条件付き制御変数、つまり BEV 特徴を表します。著者はここで制御変数を統合するために 2 つの方法を使用します。まず、BEV 特徴と BEV 特徴は空間領域で同じカテゴリとスケールを持っているため、式 5 に示すように、潜在空間サイズに調整されてから、ノイズ除去プロセスの入力として連結されます。
第二に、クロスアテンション メカニズムは、キー/値およびクエリとして UNet ネットワークの各層に統合されます。クロスアテンションモジュールの式は以下のとおりです:
3.3 具体的な実装
◆トレーニング:
◆推論:
04 実験
4.1 実験の詳細
◆データセット: nuScenes データセットで DiffMap を検証します。 nuScenes データセットには、1000 シーンのマルチビュー イメージと点群が含まれており、そのうち 700 シーンがトレーニングに使用され、150 シーンが検証に使用され、150 シーンがテストに使用されます。 nuScenes データセットには、注釈付きの HD マップ セマンティック ラベルも含まれています。
◆アーキテクチャ: カメラブランチのバックボーンネットワークとして ResNet-101 を使用し、モデルの LiDAR ブランチバックボーンネットワークとして PointPillars を使用します。ベースライン モデルのセグメンテーション ヘッドは、ResNet-18 ベースの FCN ネットワークです。オートエンコーダーには VQVAE が採用されており、モデルは nuScenes のセグメント化された地図データセットで事前トレーニングされ、地図の特徴を抽出して地図を基本潜在空間に圧縮します。最後に、UNet を使用して拡散ネットワークを構築します。
◆トレーニングの詳細: AdamW オプティマイザーを使用して、30 エポックの間 VQVAE モデルをトレーニングします。使用される学習率スケジューラは LambdaLR で、減衰係数 0.95 の指数関数的減衰モードで学習率を徐々に低下させます。初期学習率は に設定され、バッチ サイズは 8 です。次に、AdamW オプティマイザーを使用して、初期学習率 2e-4 で 30 エポックの間、拡散モデルを最初からトレーニングしました。 MultiStepLR スケジューラーが採用されており、指定されたマイルストーン時点 (0.7、0.9、1.0) およびさまざまなトレーニング段階での 1/3 のスケーリング係数に従って学習率を調整します。最後に、BEV セグメンテーションの結果は 0.15m の解像度に設定され、LiDAR 点群がボクセル化されます。 HDMapNet の検出範囲は [-30m, 30m]×[-15m, 15m]m であるため、対応する BEV マップ サイズは 400×200 ですが、Superfusion は [0m, 90m]×[-15m, 15m] を使用して 600 を取得します。 × 200 件の結果。 LDM の次元制約 (VAE および UNet では 8 倍のダウンサンプリング) のため、セマンティック グラウンド トゥルース マップのサイズは 64 の倍数にパディングする必要があります。
◆推論詳細:現在のBEV特徴条件でノイズマップのノイズ除去処理を20回実行することで予測結果が得られます。 3 つのサンプルの平均が最終的な予測結果として使用されます。
4.2 評価指標
は、主にマップのセマンティックセグメンテーションとインスタンス検出タスクに対して評価されます。そして、主に、車線境界線、車線分離帯、横断歩道という 3 つの静的な地図要素に焦点を当てています。
4.3 評価結果
表1にセマンティックマップセグメンテーションのIoUスコアの比較を示します。 DiffMap はすべての区間で大幅な改善を示し、特に車線分離帯や横断歩道で最良の結果が得られました。
▲表1|IoUスコアの比較
表2に示すように、DiffMap方式では平均精度(AP)も大幅に向上しており、DiffMapの有効性が実証されています。
▲表2|MAPスコア比較
表 3 に示すように、DiffMap パラダイムが HDMapNet に統合されると、カメラのみを使用する場合でも、カメラとライダーの融合方法を使用する場合でも、DiffMap が HDMapNet のパフォーマンスを向上させることができることがわかります。これは、DiffMap メソッドが長距離および近距離の検出を含むさまざまなセグメンテーション タスクに有効であることを示しています。ただし、境界の場合、DiffMap はうまく機能しません。境界の形状構造が固定されておらず、予測できない歪みが多く、先験的な構造特徴を捕捉することが困難であるためです。
▲表3|定量分析結果
4.4 アブレーション実験
表4は、VQVAEのさまざまなダウンサンプリング係数が検出結果に及ぼす影響を示しています。ダウンサンプリング係数が 4、8、および 16 の場合の DiffMap の動作を分析すると、ダウンサンプリング係数を 8x に設定すると最良の結果が得られることがわかります。
▲表4|アブレーション実験結果
さらに、表5に示すように、著者はインスタンス関連の予測モジュールを削除した場合のモデルへの影響も測定しました。実験では、この予測を追加すると IOU がさらに改善されることが示されています。
▲表5|アブレーション実験結果(予測モジュール含むか否か)
4.5 可視化
図4は、複雑なシーンにおけるDiffMapとベースライン(HDMapNet-fusion)の比較を示しています。ベースライン セグメンテーションの結果が、要素内の形状特性と一貫性を無視していることは明らかです。対照的に、DiffMap はこれらの問題を修正し、マップ仕様とよく一致したセグメンテーション出力を生成する機能を示しています。具体的には、(a)、(b)、(d)、(e)、(h)、および (l) の場合、DiffMap は不正確に予測された横断歩道を効果的に補正します。 (c)、(d)、(h)、(i)、(j)、および (l) の場合、DiffMap は不正確な境界を完成または削除し、結果を現実的な境界ジオメトリに近づけます。さらに、(b)、(f)、(g)、(h)、(k)、(l) の場合、DiffMap は分割線の切れの問題を解決し、隣接する要素の平行性を保証します。
▲図4|定性分析結果
本論文で著者が設計したDiffMapネットワークは、潜在拡散モデルを利用してマップ構造事前分布を学習する新しい手法であり、これにより、従来のマップ セグメンテーション モデルが採用されます。この方法は、任意のマップ セグメンテーション モデルの補助ツールとして使用でき、その予測結果は遠距離と近距離の両方の検出シナリオで大幅に改善されます。この方法は拡張性が高いため、他のタイプの事前情報を調査するのに適しています。たとえば、SD マップ事前情報を DiffMap の 2 番目のモジュールに統合して、パフォーマンスを向上させることができます。ベクトル化された地図構築の進歩は今後も続くことが予想されます。
以上がDiffMap: 高精度地図構築を強化するために LDM を使用する最初のネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!
