首頁 >科技週邊 >人工智慧 >CVPR 2024 | 自動駕駛世界模型四度空間預訓練

CVPR 2024 | 自動駕駛世界模型四度空間預訓練

WBOY
WBOY原創
2024-08-07 19:01:41848瀏覽

北京大學與EVLO創新團隊共同提出面向自動駕駛的四維時空預訓練演算法DriveWorld。此方法採用世界模型進行預先訓練,設計記憶狀態空間模型進行四維時空建模,透過預測場景的佔據柵格,降低自動駕駛面臨的隨機不確定性和知識不確定性。該論文已被CVPR 2024接收。

CVPR 2024 | 自动驾驶世界模型四维时空预训练

論文題目:DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

論文連結:https://www. php.cn/link/293643def1ba1161bcdcfbfe434ab76d

一、動機

自動駕駛的場景理解任務涉及到對未來場景變化層面,這些層面不僅包括空間上的三維結構,也包含時間維度上的動態變化。這種複雜的場景理解要求模型能夠捕捉和理解四維時空的內在關聯,從而做出準確的決策。由於自然場景的隨機性、環境的局部可觀測性以及各種下游任務的多樣性,學習四維時空表示是極具挑戰性的。預訓練在從大量資料中獲取通用表示方面發揮關鍵作用,能夠建立一個具備通用知識的基礎模型。然而,有關自動駕駛中四維時空的預訓練研究仍然相對較少。

自動駕駛系統的設計和實現需要面對和處理各種不確定性,這些不確定性主要分為兩類:Aleatoric不確定性和Epistemic不確定性。 Aleatoric不確定性源自於世界的固有隨機性,例如行人的突然移動或車輛的意外行為。 Epistemic不確定性則源自於對環境不完全的認知,例如因遮蔽或感測器限製而導致的資訊缺失。為了有效應對這些不確定性,自動駕駛系統必須能夠利用過去的經驗來預測未來可能的狀態,並對不可見的區域進行推測。本工作透過四維時空預訓練的世界模型來解決這項挑戰,旨在提升自動駕駛系統在感知、預測和規劃任務中的表現。

二、方法

對於自動駕駛環視相機系統觀察到的T個視訊畫面的序列o1:T,以及它們對應的專家行為a1:T和三維佔據柵格標籤y1:T,其中三維佔據柵格標籤可以利用三維雷射雷達點雲和姿態資料獲得。我們的目標是透過世界模型學習一個緊湊的BEV表示,該表示透過過去多視角圖像和動作預測的當前和未來的三維佔據柵格。

CVPR 2024 | 自动驾驶世界模型四维时空预训练

2.1時序機率模型

為了賦予模型四維時空建模的能力,我們先引入兩個潛在變數(h1 :T,s1:T),其中ht表示歷史資訊變量,包含了到時間步t的所有歷史信息,st表示隨機狀態變量,是模型預測未來狀態的關鍵。 ht透過歷史資訊h1:t−1和隨機狀態s1:t−1進行更新。為了預測未來狀態,我們遵循循環狀態空間模型(Recurrent State-Space Model,RSSM),建構事後狀態分佈q(st∣o≤t,a

考慮到BEV特徵的維度很高,我們將其轉換為一維向量xt,然後從(ht,at−1,xt)中抽樣高斯分佈以產生後驗狀態分佈:
p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
其中st被參數化為帶有對角協方差的常態分佈,初始分佈設定為s1∽N(0,I)。 (μϕ,σϕ)是參數化後驗狀態分佈的多層感知機。

在沒有觀察到影像的情況下,模型根據歷史資訊和預測的動作得出先驗狀態分佈:
p(st∣ht−1,st−1)∽N(μθ( ht,a^t−1),σθ(ht,a^t−1)I),
其中(μθ,σθ)參數化先驗狀態分佈。 ??是用於預測動作 a^t−1的策略網絡,基於歷史資訊ht−1和隨機狀態st−1。

CVPR 2024 | 自动驾驶世界模型四维时空预训练

2.1.1 動態訊息傳遞

在自動駕駛的場景理解中,考慮物體的運動對於準確預測未來狀態至關重要。為了捕捉這種動態訊息,我們提出透過引入運動參數來建模物體的運動,從而在動態訊息傳播過程中實現運動感知。我們引入了運動感知層歸一化(MLN)。運動屬性包括速度v和相對時間間隔Δt。 (v,Δt)被展平並透過兩個線性層(ξ1,ξ2)轉換為仿射向量γ和β:γ=ξ1(v,Δt),β=ξ2(v,Δt)。 然後執行仿射變換以獲得運動感知的潛在隨機狀態,表示為st=γ⋅LN(st)+β。隨著車輛的移動,確定性歷史狀態ht可以建立動態記憶庫h1:t。透過與動態記憶庫進行交叉注意機制計算,可以得到確定性歷史狀態ht。
確定性歷史狀態為ht+1=fθ(ht,st)。

2.1.2 空間訊息傳遞

在自動駕駛的場景理解中,除了動態變化訊息,空間結構訊息同樣重要。由於連續的場景幀通常只包含微小的變化,而場景的主要內容往往是由靜態物體組成的,如道路、樹木和交通標誌,因此在處理這些資訊時,直接將輸入圖像轉換為一維向量可能會導致關鍵空間結構資訊的遺失。我們從1到T幀中隨機選擇一幀o′,並使用其BEV特徵b′建構一個描述空間感知結構的潛在靜態表示b^=zθ(b′)。我們將空間感知的靜態表示b^與動態變化的運動表示st結合起來,得到了周圍場景的綜合表示。

2.2 預訓練輔助任務

對周圍環境的全面理解對自動駕駛視至關重要的。我們提出將物理世界建模為三維佔據柵格結構來描述車輛周圍的環境。三維佔據柵格解碼器被設定為y^t=lθ(mθ(h~t,st),b^),其中mθ是將一維特徵擴展到BEV維度的網絡,lθ是用於預測佔據柵格的三維卷積網。這種四維佔據柵格預訓練不僅能夠捕捉到場景的靜態結構,還能夠理解場景隨時間的動態變化,為自動駕駛系統提供了更豐富和動態的環境理解。

2.3 任務提示機制

雖然透過世界模型設計的預訓練任務可以學習四維時空表示,但不同的下游任務關注的資訊是不同的。為了緩解這個問題,受少樣本圖像識別的語義提示和多任務學習中的視覺示例引導提示的啟發,引入了“任務提示”機制,為不同的任務提供特定的提示,以引導它們提取任務相關的特徵。由於不同任務之間存在語意關聯,我們利用大語言模型gφ(⋅)(例如BERT,CLIP)來建構這些任務提示。例如,針對三維佔據柵格重建任務的任務提示,其關注更多的是當前場景,設定為「任務是預測當前場景的三維佔據柵格」。我們將提示ptext輸入到gφ(⋅)中以取得提示編碼gφ(ptext)。隨後將其擴展到BEV的維度,表示為qφ(gφ(ptext)),將其與學到的時空特徵整合在一起。

2.4 預訓練目標函數

DriveWorld的預訓練目標包括最小化後驗狀態分佈與先驗狀態分佈之間的差異(即Kullback-Leibler( KL)散度),以及最小化與過去和未來三維佔據柵格(即交叉熵損失(CE))和動作(即L1損失)相關的損失。我們採用模型在T個時間步內觀察輸入,然後預測未來的三維佔據柵格和L個步驟的動作。

三、實驗

3.1 實驗設定

我們在自動駕駛資料集上進行預訓練,並在nuScenes上進行微調。我們採用多幀光達點雲聚合的方式來獲得密集的三維佔據柵格標籤。

3.2 實驗結果

這裡展示部分結果,更多結果請參考論文。

CVPR 2024 | 自动驾驶世界模型四维时空预训练

CVPR 2024 | 自动驾驶世界模型四维时空预训练

CVPR 2024 | 自动驾驶世界模型四维时空预训练

CVPR 2024 | 自动驾驶世界模型四维时空预训练

CVPR 2024 | 自动驾驶世界模型四维时空预训练

四、總結

DriveWorld透過基於世界模型的四維時空預訓練,提升自動駕駛系統對周圍環境的理解和預測能力,降低自動駕駛面臨的不確定性。 DriveWorld提出了記憶狀態空間模型進行時空建模,包含動態記憶儲存模組用於學習時序感知表示,靜態場景傳播模組用於學習空間感知表示。為了進一步提升模型的適應性和靈活性,DriveWorld還引入了任務提示機制,允許模型根據當前的任務需求自適應地調整其表示,從而在不同的自動駕駛任務中實現最佳性能。

參考

[1]Chen Min, et al. Multi-Camera Unified Pre-Training Via 3D Scene Reconstruction[J]. IEEE Robotics and Automation Letters, 2024 .

[2]Chen Min, et al. Occupancy-mae: Self-supervised pre-training large-scale lidar point clouds with masked occupancy autoencoders[J]. IEEE Transactions on Intelds with masked occupancy autoencoders[J]. IEEE Transactions on Intelligent Vehicles, 2023. >

EVOL創新團隊介紹

趙健,中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智能研究院研究員、博導,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智能。

共發表CCF-A類論文60餘篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技業領導者中得到應用,產生了顯著效益。曾入選中科協及北京市科協“青年人才托舉工程”,並主持國自然青年科學基金等項目6項。曾獲吳文俊人工智慧優秀青年獎(2023)、吳文俊人工智慧自然科學獎一等獎(2/5,2022)、新加坡模式識別與機器智慧協會(PREMIA)Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎(一作,1/208,CCF-A類會議,2018),7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學會理事,國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委,《Pattern Recognition Letters》、《Electronics》特刊客座編輯,VALSE資深領域主席, ACM Multimedia 2021分論壇主席,CICAI 2022/2023領域主席,CCBR 2024論壇主席,中國人工智慧學會/中國圖象圖形學會高級會員,「挑戰盃」大學生科技作品競賽評審,中國人工智慧大賽專家委委員等。

GitHub首頁:

https://zhaoj9014.github.io

學院首頁:

https://www.php.cn/link/2e36742b37be900fffff 🎜>

金磊

,北京郵電大學特聘副研究員,主要研究方向包括電腦視覺、資料探勘、模式識別,其中深入研究人體姿態估計、人體動作辨識、人體解析等細分領域,相關成果發表於CVPR, AAAI, NIPS, ACMMM等高水準會議及期刊,共發表SCI/EI索引論文40餘篇,其中高水準論文11篇,包括以第一作者發表中科院JCR一區論文(IEEE Transactions on MultiMedia),CCF-A類會議CVPR, ACMMM論文,中科院JCR二區(Sensors, IEEE Sensor Journal)論文等。主持一項國家自然基金青年基金,參與兩項國家重點研發項目以及四項自然基金面上項目。多次依托頂會組織ICCV2021/CVPR2023 workshop (Anti-UAV Workshop & Challenge)。指導學生獲得全國大學生物聯網技術與應用「三創」競賽一等獎(北郵認定A類競賽)。

閔稱

,北大電腦學院博士,中科院計算所特別研究助理,主要研究方向包括自動駕駛、具身智能、三維重建,相關成果發表於CVPR、ICCV、 ICRA、RAL等高水準會議與期刊,包括以第一作者發表CCF-A類會議CVPR,機器人頂級會議ICRA,機器人權威期刊RAL等。參與多項國家重點研發項目。

以上是CVPR 2024 | 自動駕駛世界模型四度空間預訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn