最近,新論文推陳出新的速度著實太快有點讀不來的感覺。可以看到的是,語言視覺多模態大模型融合已經是業界共識了,UniPad 這篇文章就比較有代表性,多模態的輸入,類世界模型的預訓練基座模型,同時又方便擴展到多個傳統視覺應用。並且也解決了將大語言模型的預訓練方法用到 3D 場景的問題,所以給統一的感知基座大模型提供了可能。
UniPAD 是一種基於 MAE 和 3D 渲染的自監督學習方法,可以訓練一個表現優異的基座模型,進而在該模型上微調訓練下游任務,如深度估計、目標偵測和分割。研究設計了一個統一的3D 空間表示方法,使其能夠輕鬆融入2D 和3D 框架,展現了較大的靈活性,符合基座模型的定位
遮罩自編碼技術和3D 可微分渲染技術的關係是什麼?簡單說:掩碼自編碼是為了利用 Autoencoder 的自監督訓練能力,渲染技術是為了產生圖片後和原始圖片之間進行損失函數計算並進行監督訓練。所以邏輯還是很清晰的。
這篇文章在使用基座模型預先訓練的方法,再微調下游的偵測方法和分割方法。這個方法也可以幫助理解當下的大模型與下游任務的配合方法。
看起來是沒有結合時序訊息的。畢竟純視覺 50.2 的 NuScenes NDS 目前在帶時序的檢測方法(StreamPETR、Sparse4D 等)比較中還是弱了一些。所以 4D 的 MAE 方法,也是值得一試的,其實 GAIA-1 已經提到了類似的想法。
請問運算量和記憶體使用量如何?
UniPAD 隱性地編碼了3D 空間訊息,這裡主要受到了掩碼自編碼(MAE、VoxelMAE 等)的啟發,本文利用了生成式的mask 來完成體素特徵的加強,用來重建場景中連續的3D 形狀結構以及它們在2D 平面上的複雜外觀特徵。
我們的實驗結果充分證明了UniPAD的優越性。與傳統的雷射雷達、攝影機以及雷射雷達-攝影機融合基線相比,UniPAD的NDS分別提高了9.1、7.7和6.9。值得注意的是,在nuScenes驗證集上,我們的預訓練流程實現了73.2的NDS,同時在3D語義分割任務上獲得了79.4的mIoU分數,與以前的方法相比,取得了最佳成績
整體架構。該框架 LiDar 和多鏡頭圖片作為輸入,這些多模態資料會透過掩蔽生成器(Mask Generator)被填充為零。被遮罩遮蔽的 embedding 會被轉換到體素空間,在這樣的 3D 空間中透過渲染技術產生RGB或深度預測結果。這時沒有被遮罩遮蔽的原始影像就可以做為生成資料進行監督學習了。
Masked AutoEncoder中的mask是透過Mask Generator產生的。可以將其理解為透過增加訓練難度的方式來提高模型的表示能力和泛化能力。引入了一個Mask生成器,透過選擇性地遮蔽某些區域來區分點雲資料和影像資料。在點雲數據中,採用了分塊遮罩的策略;對於影像數據,採用了稀疏卷積的方法,只在可見區域進行計算。當輸入資料被遮罩後,後續的編碼特徵在對應的被遮罩區域會被設定為0,在模型的處理中被忽略,同時也為後續的監督學習提供了可以用來預測目標和對應的groundtruth的資訊
為了讓預訓練方法適用於各種不同的資料模態,尋找一個統一的表示形式就很重要。過往的BEV和OCC等方法都在尋找一個統一的標識形式,將3D點投影到影像平面中會導致深度資訊的遺失,而將它們合併到BEV鳥瞰圖中則會遺漏與高度相關的細節。因此,本文提出將兩種模態都轉換為3D體積空間,也就是類似OCC的3D體素空間
我們將場景表示為SDF(implicit signed distance function field),當輸入是採樣點的3D 座標P(沿射線的相應深度D)與F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation )時,SDF 可以看做一個MLP ,來預測取樣點的SDF 值。這裡 F 可以理解為 P 點所在的 encode 編碼。繼而得到輸出:N(condition the color field on the surface normal)和H(geometry feature vector),這時就可以透過一個以P、D、F、N、H 為輸入的MLP 取得到3D 採樣點的RGB值和深度值,再透過射線疊加3D 採樣點到2D 空間就得到了渲染結果。而這裡射線 Ray 的採用方法,和 Nerf 的方法基本上都一樣。
渲染方法還需要進行記憶體開支的最佳化工作,這裡先按下不表。不過這個問題是比較關鍵的落地問題。
Mask 與渲染方法的本質在於訓練一個預訓練模型,預訓練模型可以根據預測的遮罩進行訓練,甚至可以沒有後續分支。預訓練模型的後續工作透過不同的分支分別產生RGB 和深度預測,結合目標偵測/語意分割等任務進行微調,實現了即插即用的能力
Loss 函數並不複雜。
其實GAIA-1 已經在用時序上的Mask AutoEncoder 思路,只不過作為監督數據的是不同時刻的一整幀數據,但是UniPAD 則是在3D 空間中去隨機摳出一部分mask 來監督預測。倒是蠻期待能看到兩者結合的方法的。
另外,UniPAD 完全可以看成是一種多模態大模型的嘗試,也可以看做是一種世界模型。雖然文章中沒有非常強調這些。
本文應該算是 3D 領域較為新穎的 Masked Autoencoder 方法了。因為MAE 方法是用在了基座模型預訓練階段,所以支持了多個不同模態的信息,所以自然而然的可以擴展到微調下游很多任務,這和LLM 的設計思路非常的接近,都注重於在預訓練階段捕捉多模態訊息,為各種任務提供統一的基礎。這種方法為3D領域的研究提供了新的思路和可能性。
該方法不僅在3D領域具有潛力,還可以擴展到4D 時序領域,以及優化其內存與計算量等方面還可以產生很多新的工作,為未來的研究提供了新的思路和可能性。
原文連結:https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow
以上是UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持的詳細內容。更多資訊請關注PHP中文網其他相關文章!