原標題:LidarDM: Generative LiDAR Simulation in a Generated World
論文連結:https://arxiv.org/pdf/2404.02903.pdf
程式碼連結:https ://github.com/vzyrianov/lidardm
作者單位:伊利諾大學麻省理工學院
##論文想法:
本文介紹了LidarDM,這是一種新穎的雷射雷達生成模型,能夠產生逼真、佈局感知、物理可信以及時間上連貫的雷射雷達視訊。 LidarDM在雷射雷達生成建模方面具有兩個前所未有的能力:(一)由駕駛場景引導的雷射雷達生成,為自動駕駛模擬提供了重大激勵;(二)4D光達點雲生成,使得創建逼真且時間上連貫的雷射雷達序列成為可能。本文模型的核心是一個新穎的綜合4D世界生成架構。具體來說,本文採用隱性擴散模型(latent diffusion models)來產生3D場景,將其與動態參與者(dynamic actors)結合,形成底層的4D世界,然後在這個虛擬環境中產生逼真的雷射感知數據。本文的實驗表明,本文的方法在逼真度、時間連貫性和佈局一致性方面優於競爭演算法。本文也展示了LidarDM可作為生成世界模擬器,用於訓練和測試感知模型。
網頁設計:
制定的生成模型在處理資料分佈和內容創作方面已經越來越引起人們的關注,例如在圖像和視訊生成[ 10, 33, 52-55]、3D物體生成[10,19,38,52]、壓縮[5,29,68]以及編輯[37,47]等領域。生成模型對於模擬[6, 11, 18, 34, 46, 60, 64, 66, 76, 82]也表現出出色的潛力,能夠創建逼真的場景及其相關的感知數據,用於訓練和評估安全關鍵的智慧能力,如機器人和自動駕駛車輛,無需昂貴的手工建模現實世界。這些能力對於依賴廣泛的環境訓練或場景測試的應用至關重要。
在條件影像和影片產生方面的進展非常顯著,但自動駕駛應用產生功能特定場景下逼真的光達點雲序列的具體任務仍未得到充分探索。目前的光達產生方法主要分為兩大類,每一類都面臨特定的挑戰。
目前的雷射雷達生成建模方法[8, 72, 79, 83]僅限於單幀生成,並且沒有提供語義可控性和時間一致性的手段。 - 雷射雷達重模擬(resimulation)[14, 17, 46, 65, 67, 74]嚴重依賴使用者創建或現實世界收集的資產。這增加了高昂的操作成本,限制了多樣性,並限制了更廣泛的應用性。
-
為了應對這些挑戰,本文提出了LidarDM(激光雷達擴散模型),它能夠創造出逼真的、佈局感知的、物理上可信的、以及時間上連貫的激光雷達視頻。本文探討了兩種以前未曾涉及的新穎能力:(i)由駕駛場景引導的雷射雷達合成,這對自動駕駛模擬具有巨大潛力,以及(ii)旨在產生逼真的、有標註的雷射雷達點雲序列的4D 雷射雷達點雲合成。本文實現了這些目標的關鍵洞察在於首先生成和組合底層的 4D 世界,然後在這個虛擬環境中創造逼真的感知觀察。為了實現這一點,本文整合了現有的 3D 物體生成方法來創造動態交通參與者(dynamic actors),並開發了一種基於潛擴散模型(latent diffusion models)的大規模 3D 場景生成的新方法。這種方法能夠從粒子的語義佈局中產生逼真多樣化的 3D 駕駛場景,據本文所知,這是首次嘗試。本文應用軌跡產生 3D 世界,並執行隨機光線投射模擬(stochastic raycasting simulation)以產生最終的 4D 雷射雷達序列。如圖1所示,本文產生的結果多樣化,與佈局條件對齊,既逼真又時間上連貫。
本文的實驗結果表明,由 LidarDM 產生的單幀影像展現出逼真性和多樣性,其性能與最先進的無條紋單幀雷射達點雲生成技術相當。此外,本文展示了 LidarDM 能夠產生保持時間連貫性的雷射達點雲視頻,超越了穩健的 stable diffusion 感測器生成基線。據本文所知,這是第一個具備此能力的雷射達點雲生成方法。本文進一步透過展示生成的雷射達點雲與真實雷射達點雲在匹配地圖條目下的良好吻合,來證明 LidarDM 的條目生成能力。最後,本文說明了使用 LidarDM 產生的數據在用真實數據訓練的感知模組測試時展現出最小的域差距,並且還可以用來擴展訓練數據,顯著提升 3D 檢測器的性能。這為使用生成的雷射達點雲模型創建逼真且可控的模擬環境以訓練和測試駕駛模型提供了前提。
圖 1:本文展示了 LidarDM,這是一個新穎的 4D 雷射雷達生成模型。本文產生的光達影片同時具有逼真性、佈局條件性、物理可信性、多樣性和時間連貫性的優勢。
圖2:LidarDM 的應用:(a) 在沒有3D 捕捉或建模的情況下產生與地圖緊密對齊的雷射雷達(彩色框突出顯示雷射雷達與地圖之間的一致性);(b) 為現有的交通模擬器(Waymax [20])提供感測器數據,使其能夠僅從純感測器數據評估安全關鍵場景;(c) 產生具有可控障礙物位置的大量光達資料(被視為免費獲得的真實標籤),以透過無需昂貴資料捕捉和標註的預訓練來改進感知模型。
圖 3:LidarDM 概覽:給定時間 t = 0 時的交通佈局輸入,LidarDM 首先產生交通參與者(actors)和靜態場景。然後,本文產生交通參與者(actors)和自車的運動,並建構底層的 4D 世界。最後,使用基於生成和物理的模擬來創建逼真的 4D 感測器數據。
圖 4:本文的 3D 場景產生流程。首先,累積的點雲被用來重建每個真實網格樣本。接下來,訓練一個變分自編碼器(VAE)將網格壓縮成隱式編碼。最後,訓練以地圖為條件的擴散模型,在 VAE 的隱空間內進行取樣,產生新的樣本。
圖 5:用於感知噪音模擬的隨機光線丟棄(raydrop)網絡,進一步增強了真實感。本文在上方的掩碼距離圖和掩碼光達影像中以紅色突出顯示了光線丟棄的(raydropped)點。
實驗結果:
圖 6:真實的 KITTI-360 樣本與來自競爭方法的無條件樣本比較。 UltraLiDAR 樣本視覺化直接從它們的論文中取得。與先前的方法相比,LidarDM 產生的樣本具有更多數量、更詳細的顯著物體(例如,汽車、行人)、更清晰的 3D 結構(例如,直牆)以及更逼真的道路佈局。
圖 7:在 2 Waymax [20] 地圖序列上進行的以地圖為條件的序列產生的定性結果。本文也展示了對應的累積點雲,以突顯 LidarDM 的時序一致性。
總結:
本文提出了LidarDM,這是一個新穎的基於佈局條件的隱擴散模型(latent diffusion models) ,用於產生逼真的雷射雷達點雲。本文的方法將問題框定為一個聯合的 4D 世界創建和感知資料生成任務,並開發了一個新穎的隱擴散模型(latent diffusion models) 來創建 3D 場景。由此產生的點雲視訊是真實的、連貫的,並且具有佈局感知(layout-aware)能力。