ReSimAD：如何透過虛擬資料提升感知模型的泛化效能-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 17, 2024 am 11:33 AM

模型場景

寫在前面&筆者的個人理解

自動駕駛車輛感測器層面的域變化是很普遍的現象，例如在不同場景和位置的自動駕駛車輛，處在不同光照、天氣條件下的自動駕駛車輛，搭載了不同感測器設備的自動駕駛車輛，上述這些都可以被考慮為是經典的自動駕駛域差異。這種領域差異對於自動駕駛帶來了挑戰，主要因為依賴舊域知識的自動駕駛模型很難在沒有額外成本的情況下直接部署到一個從未見過的新領域。因此在本文，我們提出了一種重建-模擬-感知（ReSimAD）方案，來提供了一種進行域遷移的新視角和方法。具體來說，我們利用隱式重建技術來獲取駕駛場景中的舊域知識，重建過程的目的是為了研究如何將舊域中領域相關的知識轉換為域不變的表示（Domain-invariant Representations），如，我們認為3D場景層級網格表示（3D Mesh Representations）就是一種域不變的表示。基於重建後的結果，我們進一步利用模擬器來產生更逼真的類目標域的模擬點雲，這一步依賴重建得到的背景資訊和目標域的感測器方案，從而降低了後續感知過程中收集和標註新域資料的成本。

我們在實驗驗證部分考慮了不同的跨域設置，包括Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE等。所有跨域設置都採用zero-shot實驗設置，只依賴源域的背景mesh和仿真感測器來進行目標域樣本仿真，提升模型泛化能力。結果表明，ReSimAD可極大提升感知模型對目標域場景的泛化能力，甚至比一些無監督領域適配方法還要好。

論文資訊

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

論文主題：ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation
ICLR-2024接收
論文發表單位：上海人工智慧實驗室，上海交通大學，復旦大學，北京航空航天大學
論文地址：https: //arxiv.org/abs/2309.05527
程式碼位址：模擬資料集與感知部分，https://github.com/PJLab-ADG/3DTrans#resimad；源域重建部分，https:// github.com/pjlab-ADG/neuralsim；目標域模擬部分，https://github.com/PJLab-ADG/PCSim

研究動機

挑戰

：雖然3D模型可以幫助自動駕駛汽車識別周圍環境，但現有的基準模型

很難推廣到新的領域（如不同的感測器設定或未見過的城市）。自動駕駛領域的長期願景是可以以較低的代價讓模型可以實現域遷移，即：將一個在源域上充分訓練的模型成功地適配到目標域場景，其中源域和目標域分別是存在明顯資料分佈差異的兩個域，如源域是晴天，目標域是雨天；源域是64-beam感測器，目標域是32-beam感測器。

常用的解決想法 ReSimAD：如何透過虛擬資料提升感知模型的泛化效能：面臨上述領域差異情況，最常見的解決方案是對目標域場景進行資料獲取和資料標註，這種方式可以從一定程度上避免域差異帶來的模型效能退化的問題，但是存在極大的1）資料收集代價和2）資料標註代價。因此，如下圖所示(請看(a)和(b)兩基線方法)，為了緩解對於一個新域的資料擷取和資料標註代價，可以利用模擬引擎來渲染一些模擬點雲樣本，這是常見的sim-to-real研究工作的解決思路。另一個想法是無監督領域適配（UDA for 3D），這一類工作的目的是研究如何在僅僅接觸到無標註的目標域數據(注意是真實數據)的條件下，實現近似全監督微調的效能，如果可以做到這一點，確實省去了為目標域進行標註的代價，但是UDA方法仍然需要採集海量的真實目標域資料來刻畫目標域的資料分佈。

######圖1：不同訓練範式的比較###

我們的思路：不同於上述兩個類別的研究思路，如下圖所示(請看(c)基準流程)，我們致力於虛實結合的資料模擬-感知一體化路線，其中虛實結合中的真實是指：基於海量有標籤的源域數據，來構建一個域不變(domain-invariant)的表示，這種假設對於很多場景具有實際意義，因為經過長期歷史數據積累，我們總是可以認為這種有標註的源域資料是存在的；另一方面，虛實結合中的模擬是指：當我們基於源域資料建構了一種域不變(domain-invariant)的表示後，這種表示法可以被匯入到現有的渲染pipeline中來執行目標域資料模擬。相較於目前sim-to-real這一類研究工作，我們的方法有真實場景級數據作為支撐，包括道路結構、上下坡等真實信息，這些信息是僅依賴於仿真引擎本身難以獲得的。當獲得了類目標域的資料之後，我們將這些資料融入目前最好的感知模型中，例如PV-RCNN，進行訓練，然後驗證模型在目標域下的精確度。整體的詳細工作流程請見下圖：

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能圖2 ReSimAD流程圖

ReSimAD的流程圖如圖2所示，主要包含a) Point-to -Mesh隱含重建過程, b) Mesh-to-point模擬引擎渲染過程, c) 零樣本感知過程。

ReSimAD:模擬重建感知範式

a) Point-to-mesh隱含重建過程：受到StreetSurf的啟發，我們僅使用光達重建來重建真實而多樣的街道場景背景、動態交通流資訊。我們首先設計了一個純點雲SDF重建模組（LiDAR-only Implicit Neural Reconstruction，LINR），其優勢是可以不受到一些由camera感測所導致的域差異的影響，例如：光照變化、天氣條件變化等。純點雲SDF重建模組將LiDAR rays作為輸入，然後預測深度訊息，最終建構場景3D meshes表示。

具體地，對於從原點 ReSimAD：如何透過虛擬資料提升感知模型的泛化效能，方向為發射的光線，我們對光達應用體渲染來訓練Signed Distance Field (SDF)網絡，渲染深度D可以公式化為：

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

其中是第個樣本點的取樣深度 ReSimAD：如何透過虛擬資料提升感知模型的泛化效能，是累積透射率（the accumulated transmittance），是透過使用NeuS中的近距離模型獲得的。

從StreetSurf中獲得靈感，本文提出的重建過程的模型輸入來自於雷射雷達射線，輸出是預測的深度。在每個採樣的光達光束上 ReSimAD：如何透過虛擬資料提升感知模型的泛化效能，我們在上應用對數L1損失，即組合近景和遠景模型的渲染深度：

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

##然而，LINR方法仍面臨一些挑戰。由於雷射雷達所獲得的資料的固有稀疏性，單一雷射雷達點雲幀僅能捕捉標準RGB影像中包含的資訊中的一部分資訊。這種差異突顯了深度渲染在為有效訓練提供必要的幾何細節方面的潛在不足。因此，這可能導致在所得到的重建網格內產生大量的偽影。為了因應這項挑戰，我們提出拼接一個Waymo序列中的所有幀，以提升點雲的密度。

由於Waymo資料集中頂部雷射雷達（Top LiDAR）的垂直視野的限制，僅獲得-17.6°至2.4°之間的點雲對周圍高層建築的重建存在明顯的限制。為了應對這項挑戰，我們引入了將側面雷射雷達（Side LiDAR）的點雲納入採樣序列來進行重建的解決方案。四個補盲雷達分別安裝在在自動駕駛車輛的前部、後部和兩個側面，垂直視野達到 [-90°，30°]，這有效地補償了頂部雷射雷達的視野範圍不足的缺點。由於側面光達和頂部光達之間的點雲密度存在差異，我們選擇為側面光達分配更高的採樣權重，以提高高層建築場景的重建品質。

重建品質評估: 由於動態物體造成的遮蔽和雷射雷達雜訊的影響，隱式表示進行重建可能存在於一定的雜訊中。因此，我們對重建精度進行了評估。因為我們可以獲得來自於舊領域的海量帶標註的點雲數據，因此我們可以透過在舊域上進行重新渲染來獲取到舊域的仿真點雲數據，以此來評價重建mesh的準確性。我們對模擬後的點雲和原始真實點雲進行度量，使用均方根誤差（RMSE）和倒角距離（CD）：

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

##其中對於每個序列的重建得分和一些詳細過程的描述請參考原文附錄。

Mesh-to-point模擬引擎渲染過程: 在透過上述LINR方法獲得到靜態背景mesh後，我們使用Blender Python API將網格資料從.ply格式轉換為.fbx格式的3D模型文件，並最終將背景mesh作為資產庫載入到用於開源模擬器CARLA。

我們首先獲得Waymo的標註文件，來獲取每一個交通參與者的邊界框類別和三維物體大小，並根據這些信息，我們在CARLA的數字資產庫中搜索同一類別的交通參與者中大小最接近的數位資產，並將這個數位資產匯入並作為交通參與者模型。根據CARLA模擬器中可用的場景真實性信息，我們為交通場景中的每個可檢測的目標開發了

一個檢測框提取工具。詳細資訊請參考，PCSim開發工具。

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

圖3 不同資料集交通參與者物件大小的分佈（長、寬、高）。從圖3可以看出，利用這種方法所模擬的物體大小的分佈多樣性很廣，超過了目前已經公開的資料集像KITTI, nuScenes，Waymo， ONCE等。

ReSimAD重建-模擬資料集

我們將Waymo作為源域數據，並且在Waymo上進行重建從而獲得較真實的3D mesh。同時，我們將KITTI, nuScenes，ONCE作為目標域場景，並且在這些目標域場景下驗證我們方法所實現的zero-shot效能。

我們根據上述章節的介紹基於Waymo數據集產生3D場景級的meshes數據，並且利用上述評價準則來在Waymo domain下判斷哪些3D meshes是高質量的，並且根據打分選擇最高的146個meshes來進行後續的目標域模擬過程。

評估結果

關於ResimAD資料集中的一些視覺化範例如下圖所示：

評估結果 ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

實驗章節

實驗設定

度量標準：我們對齊目前進行3D cross-domain object detection的評估標準，分別採用以BEV為基礎的和以3D為基礎的AP作為評估度量標準。
參數設定：詳情參考論文.

實驗結果

這裡只展示了主要實驗結果，更多結果請參考我們的論文。

三種跨域設定下，PV-RCNN/PV-RCNN 兩種模型的適配效能

從上述表格中我們可以觀察到：利用無監督域自適應（UDA）技術UDA和ReSimAD之間的主要區別在於，前者使用目標域真實場景的樣本進行模型領域遷移，而ReSimAD的實驗設定是要求其不能夠存取到目標域的任何真實點雲資料。從上表可以看出，我們的ReSimAD所獲得的跨域結果與UDA方法所獲得的結果是可比較的。這項結果表明，當雷射雷達感測器出於商業目的需要升級時，我們的方法可以大大降低資料採集成本，並進一步縮短模型由於領域差異所導致的再訓練、再開發週期。

ReSimAD數據作為目標域的冷啟動數據，在目標域上可以達到的效果

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

使用ReSimAD產生的數據的另一個好處是，可以在不存取任何目標域真實資料分佈的情況下就能獲得高效能的目標域精度。這個過程其實類似自動駕駛模型在新場景下的「冷啟動」過程。

上表報告了在全監督目標域下的實驗結果。 Oracle代表了模型是在全量帶標註目標域資料上訓練的結果，而SFT表示基線模型的網路初始化參數是由ReSimAD模擬資料訓練的權重提供的。上述實驗表表明，使用我們的ReSimAD方法所模擬的點雲可以獲得較高的初始化權值參數，其性能超過了Oracle實驗設定。

ReSimAD資料作為通用資料集，利用AD-PT預訓練方式在不同下游任務上的表現

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

為了驗證ReSimAD是否可以產生更多的點雲資料來幫助3D預訓練，我們設計了以下實驗：使用AD-PT(近期提出的一個關於自動駕駛場景下預訓練骨幹網路的方法)在模擬的點雲上來預訓練3D backbone，然後使用下游的真實場景資料進行全參數微調。

我們利用ReSimAD產生具有更廣泛分佈的點雲的資料。為了與AD-PT中的預訓練結果進行公平的比較，ReSimAD產生的模擬點雲資料的目標量約為。在上述表格中，我們的基線偵測器分別在真實預訓練資料（ONCE資料集）和模擬預訓練資料（由ReSimAD提供）進行3D預訓練，使用AD-PT方法，並在KITTI和Waymo資料集上進行下游微調。上表的結果表明，使用不同規模的模擬預訓練數據，可以不斷提高模型在下游的性能。此外，可以看到由ReSimAD獲取的預訓練資料的資料獲取成本是很低的，相比於採用ONCE進行模型預訓練，並且ReSimAD所獲得的預訓練性能和ONCE資料集上的預訓練性能是可比較的。

採用ReSimAD重建模擬v.s. 採用CARLA預設模擬的視覺化對比

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

我們基於Waymo資料集重建的mesh v.s. 使用VDBFusion重建的可視化對比

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能

#總結

在這項工作中，我們致力於研究如何實驗零樣本目標域模型遷移任務，該任務要求模型不接觸到任何來自於目標域的樣本資料訊息，就可以將源域預訓練的模型成功地遷移到目標域場景。不同與先前的工作，我們首次探索了基於源域隱式重建和目標域多樣性模擬的3D資料生成技術，並且驗證了該技術可以在不接觸到目標域資料分佈的情況下實現較好的模型遷移性能，甚至比一些無監督領域適配（UDA）的方法還要好。

ReSimAD：如何透過虛擬資料提升感知模型的泛化效能