北京大學與EVLO創新團隊共同提出面向自動駕駛的四維時空預訓練演算法DriveWorld。此方法採用世界模型進行預先訓練,設計記憶狀態空間模型進行四維時空建模,透過預測場景的佔據柵格,降低自動駕駛面臨的隨機不確定性和知識不確定性。該論文已被CVPR 2024接收。
論文題目:DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
論文連結:https://www. php.cn/link/293643def1ba1161bcdcfbfe434ab76d
一、動機
自動駕駛的場景理解任務涉及到對未來場景變化層面,這些層面不僅包括空間上的三維結構,也包含時間維度上的動態變化。這種複雜的場景理解要求模型能夠捕捉和理解四維時空的內在關聯,從而做出準確的決策。由於自然場景的隨機性、環境的局部可觀測性以及各種下游任務的多樣性,學習四維時空表示是極具挑戰性的。預訓練在從大量資料中獲取通用表示方面發揮關鍵作用,能夠建立一個具備通用知識的基礎模型。然而,有關自動駕駛中四維時空的預訓練研究仍然相對較少。
自動駕駛系統的設計和實現需要面對和處理各種不確定性,這些不確定性主要分為兩類:Aleatoric不確定性和Epistemic不確定性。 Aleatoric不確定性源自於世界的固有隨機性,例如行人的突然移動或車輛的意外行為。 Epistemic不確定性則源自於對環境不完全的認知,例如因遮蔽或感測器限製而導致的資訊缺失。為了有效應對這些不確定性,自動駕駛系統必須能夠利用過去的經驗來預測未來可能的狀態,並對不可見的區域進行推測。本工作透過四維時空預訓練的世界模型來解決這項挑戰,旨在提升自動駕駛系統在感知、預測和規劃任務中的表現。
二、方法
對於自動駕駛環視相機系統觀察到的T個視訊畫面的序列o1:T,以及它們對應的專家行為a1:T和三維佔據柵格標籤y1:T,其中三維佔據柵格標籤可以利用三維雷射雷達點雲和姿態資料獲得。我們的目標是透過世界模型學習一個緊湊的BEV表示,該表示透過過去多視角圖像和動作預測的當前和未來的三維佔據柵格。
2.1時序機率模型
為了賦予模型四維時空建模的能力,我們先引入兩個潛在變數(h1 :T,s1:T),其中ht表示歷史資訊變量,包含了到時間步t的所有歷史信息,st表示隨機狀態變量,是模型預測未來狀態的關鍵。 ht透過歷史資訊h1:t−1和隨機狀態s1:t−1進行更新。為了預測未來狀態,我們遵循循環狀態空間模型(Recurrent State-Space Model,RSSM),建構事後狀態分佈q(st∣o≤t,a 考慮到BEV特徵的維度很高,我們將其轉換為一維向量xt,然後從(ht,at−1,xt)中抽樣高斯分佈以產生後驗狀態分佈: 在沒有觀察到影像的情況下,模型根據歷史資訊和預測的動作得出先驗狀態分佈: 2.1.1 動態訊息傳遞 在自動駕駛的場景理解中,考慮物體的運動對於準確預測未來狀態至關重要。為了捕捉這種動態訊息,我們提出透過引入運動參數來建模物體的運動,從而在動態訊息傳播過程中實現運動感知。我們引入了運動感知層歸一化(MLN)。運動屬性包括速度v和相對時間間隔Δt。 (v,Δt)被展平並透過兩個線性層(ξ1,ξ2)轉換為仿射向量γ和β:γ=ξ1(v,Δt),β=ξ2(v,Δt)。 然後執行仿射變換以獲得運動感知的潛在隨機狀態,表示為st=γ⋅LN(st)+β。隨著車輛的移動,確定性歷史狀態ht可以建立動態記憶庫h1:t。透過與動態記憶庫進行交叉注意機制計算,可以得到確定性歷史狀態ht。 2.1.2 空間訊息傳遞 在自動駕駛的場景理解中,除了動態變化訊息,空間結構訊息同樣重要。由於連續的場景幀通常只包含微小的變化,而場景的主要內容往往是由靜態物體組成的,如道路、樹木和交通標誌,因此在處理這些資訊時,直接將輸入圖像轉換為一維向量可能會導致關鍵空間結構資訊的遺失。我們從1到T幀中隨機選擇一幀o′,並使用其BEV特徵b′建構一個描述空間感知結構的潛在靜態表示b^=zθ(b′)。我們將空間感知的靜態表示b^與動態變化的運動表示st結合起來,得到了周圍場景的綜合表示。 2.2 預訓練輔助任務 對周圍環境的全面理解對自動駕駛視至關重要的。我們提出將物理世界建模為三維佔據柵格結構來描述車輛周圍的環境。三維佔據柵格解碼器被設定為y^t=lθ(mθ(h~t,st),b^),其中mθ是將一維特徵擴展到BEV維度的網絡,lθ是用於預測佔據柵格的三維卷積網。這種四維佔據柵格預訓練不僅能夠捕捉到場景的靜態結構,還能夠理解場景隨時間的動態變化,為自動駕駛系統提供了更豐富和動態的環境理解。 2.3 任務提示機制 雖然透過世界模型設計的預訓練任務可以學習四維時空表示,但不同的下游任務關注的資訊是不同的。為了緩解這個問題,受少樣本圖像識別的語義提示和多任務學習中的視覺示例引導提示的啟發,引入了“任務提示”機制,為不同的任務提供特定的提示,以引導它們提取任務相關的特徵。由於不同任務之間存在語意關聯,我們利用大語言模型gφ(⋅)(例如BERT,CLIP)來建構這些任務提示。例如,針對三維佔據柵格重建任務的任務提示,其關注更多的是當前場景,設定為「任務是預測當前場景的三維佔據柵格」。我們將提示ptext輸入到gφ(⋅)中以取得提示編碼gφ(ptext)。隨後將其擴展到BEV的維度,表示為qφ(gφ(ptext)),將其與學到的時空特徵整合在一起。 2.4 預訓練目標函數 DriveWorld的預訓練目標包括最小化後驗狀態分佈與先驗狀態分佈之間的差異(即Kullback-Leibler( KL)散度),以及最小化與過去和未來三維佔據柵格(即交叉熵損失(CE))和動作(即L1損失)相關的損失。我們採用模型在T個時間步內觀察輸入,然後預測未來的三維佔據柵格和L個步驟的動作。 三、實驗 3.1 實驗設定 我們在自動駕駛資料集上進行預訓練,並在nuScenes上進行微調。我們採用多幀光達點雲聚合的方式來獲得密集的三維佔據柵格標籤。 3.2 實驗結果 這裡展示部分結果,更多結果請參考論文。 四、總結 DriveWorld透過基於世界模型的四維時空預訓練,提升自動駕駛系統對周圍環境的理解和預測能力,降低自動駕駛面臨的不確定性。 DriveWorld提出了記憶狀態空間模型進行時空建模,包含動態記憶儲存模組用於學習時序感知表示,靜態場景傳播模組用於學習空間感知表示。為了進一步提升模型的適應性和靈活性,DriveWorld還引入了任務提示機制,允許模型根據當前的任務需求自適應地調整其表示,從而在不同的自動駕駛任務中實現最佳性能。 參考 [1]Chen Min, et al. Multi-Camera Unified Pre-Training Via 3D Scene Reconstruction[J]. IEEE Robotics and Automation Letters, 2024 . [2]Chen Min, et al. Occupancy-mae: Self-supervised pre-training large-scale lidar point clouds with masked occupancy autoencoders[J]. IEEE Transactions on Intelds with masked occupancy autoencoders[J]. IEEE Transactions on Intelligent Vehicles, 2023. > EVOL創新團隊介紹 趙健,中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智能研究院研究員、博導,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智能。 https://www.php.cn/link/2e36742b37be900fffff 🎜> ,北京郵電大學特聘副研究員,主要研究方向包括電腦視覺、資料探勘、模式識別,其中深入研究人體姿態估計、人體動作辨識、人體解析等細分領域,相關成果發表於CVPR, AAAI, NIPS, ACMMM等高水準會議及期刊,共發表SCI/EI索引論文40餘篇,其中高水準論文11篇,包括以第一作者發表中科院JCR一區論文(IEEE Transactions on MultiMedia),CCF-A類會議CVPR, ACMMM論文,中科院JCR二區(Sensors, IEEE Sensor Journal)論文等。主持一項國家自然基金青年基金,參與兩項國家重點研發項目以及四項自然基金面上項目。多次依托頂會組織ICCV2021/CVPR2023 workshop (Anti-UAV Workshop & Challenge)。指導學生獲得全國大學生物聯網技術與應用「三創」競賽一等獎(北郵認定A類競賽)。 ,北大電腦學院博士,中科院計算所特別研究助理,主要研究方向包括自動駕駛、具身智能、三維重建,相關成果發表於CVPR、ICCV、 ICRA、RAL等高水準會議與期刊,包括以第一作者發表CCF-A類會議CVPR,機器人頂級會議ICRA,機器人權威期刊RAL等。參與多項國家重點研發項目。
p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
其中st被參數化為帶有對角協方差的常態分佈,初始分佈設定為s1∽N(0,I)。 (μϕ,σϕ)是參數化後驗狀態分佈的多層感知機。
p(st∣ht−1,st−1)∽N(μθ( ht,a^t−1),σθ(ht,a^t−1)I),
其中(μθ,σθ)參數化先驗狀態分佈。 ??是用於預測動作 a^t−1的策略網絡,基於歷史資訊ht−1和隨機狀態st−1。
確定性歷史狀態為ht+1=fθ(ht,st)。
以上是CVPR 2024 | 自動駕駛世界模型四度空間預訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Apollo Research的一份新報告顯示,先進的AI系統的不受檢查的內部部署構成了重大風險。 在大型人工智能公司中缺乏監督,普遍存在,允許潛在的災難性結果

傳統測謊儀已經過時了。依靠腕帶連接的指針,打印出受試者生命體徵和身體反應的測謊儀,在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因,儘管它曾導致許多無辜者入獄。 相比之下,人工智能是一個強大的數據引擎,其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。 一種方法是像測謊儀一樣分析被審問者的生命體徵反應,但採用更詳細、更精確的比較分析。 另一種方法是利用語言標記來分析人們實際所說的話,並運用邏輯和推理。 俗話說,一個謊言會滋生另一個謊言,最終

航空航天業是創新的先驅,它利用AI應對其最複雜的挑戰。 現代航空的越來越複雜性需要AI的自動化和實時智能功能,以提高安全性,降低操作

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。 來自Noetix的N2機器人重達40多磅,身高3英尺,據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍,身高約4英尺。比賽中還有許多體型更小的類人機器人參賽,甚至還有一款由風扇驅動前進的機器人。 數據解讀 這場半程馬拉松吸引了超過12,000名觀眾,但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”,但並非所有機器人均完成了全程比賽。 冠軍——由北京類人機器人創新中心研發的Tiangong Ult

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。 我們不是在創造人工智能,而是人工推斷 - 處理信息的機器,而人類則

一份報告發現,在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面,每次查看照片時,都會在屏幕底部顯示一行新檢測到的面孔縮略圖。 新的面部縮略圖缺少姓名標籤,所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言,此功能除了谷歌相冊已在您的圖像中找到這些人之外,不提供任何其他信息。 此功能尚未上線,因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度,或者可能用於其他目的,例如選擇要編輯的個人。我們拭目以待。 就目前而言

增強者通過教授模型根據人類反饋進行調整來震撼AI的開發。它將監督的學習基金會與基於獎勵的更新融合在一起,使其更安全,更準確,真正地幫助

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中