搜尋
首頁科技週邊人工智慧來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

近期,世界模型的概念引發了火熱浪潮,而自動駕駛領域豈能隔岸觀「火」。來自中科院自動化所的團隊,首次提出了名為 Drive-WM 的全新多視圖世界模型,旨在增強端到端自動駕駛規劃的安全性。

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

網址:https://drive-wm.github.io

論文網址:https ://arxiv.org/abs/2311.17918

首個多視圖預測與規劃的自動駕駛世界模型

在CVPR2023 自動駕駛的研討會上,特斯拉和Wayve 兩大科技巨頭狂秀黑科技,一種名為「生成式世界模型」的全新概念隨之火爆自動駕駛領域。 Wayve 更是發布了 GAIA-1 的生成式 AI 模型,展現了令人震撼的影片場景產生能力。而最近,中科院自動化所的研究者們也提出了一個新的自動駕駛世界模型——Drive-WM,首次實現了多視圖預測的世界模型,與當下主流的端到端自動駕駛規劃器無縫結合。

Drive-WM 利用了 Diffusion 模型的強大生成能力,能夠產生逼真的影片場景。

想像一下,你正在開車,而你的車載系統正在根據你的駕駛習慣和路況預測未來的發展,並產生相應的視覺回饋來指導軌跡路線的選擇。這種預見未來的能力和規劃器結合,將大大提高自動駕駛的安全性!

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

基於多重視圖世界模型的預測與規劃。

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達


來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達


來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

世界模型與端對端自動駕駛的結合提升駕駛安全性

Drive-WM 模型首次將世界模型與端到端規劃相結合,為端到端自動駕駛的發展開啟了新的篇章。在每個時間步上,規劃器可以藉助世界模型預測未來可能發生的情景,再利用影像獎勵函數全面評估。 來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

基於世界模型的端對端軌跡規劃樹可以進行重寫

採用最佳估計法和擴展規劃樹技術,可以實現更有效和安全的規劃來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達


來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

##########

Drive-WM透過創新地研究,探索了世界模型在端到端規劃中的兩種應用

1. 展示了世界模型在面對OOD場景時的穩健性。作者透過對比實驗發現了目前的端到端規劃者在面對 OOD 情境時的表現並不理想。

作者給出了以下圖片,當對初始位置進行輕微的橫向偏移擾動後,目前的端到端規劃器就難以輸出合理的規劃路線。

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

端到端規劃器在面對 OOD 情況時難以輸出合理的規劃路線。

Drive-WM的強大生成能力為解決OOD問題提供了新的思路。作者利用產生的影片來微調規劃器,從OOD資料中進行學習,使得規劃器在面對這樣的場景時可以擁有更好的性能

2. 這表明了引入未來場景評估對於端到端規劃的增強作用

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

#如何建立多視圖的視訊生成模型

#多視圖影片產生的時空一致性一直以來都是一個具有挑戰性的問題。 Drive-WM 透過引入時序層的編碼來擴展視訊生成的能力,並透過視圖分解建模的方式實現多視圖的視訊生成。這種視圖分解的產生方式可以大幅提升視圖之間的一致性

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

#Drive-WM 整體模型設計

#高品質的影片生成與可控性

Drive-WM實現了高品質的多視圖影片生成,並且具有出色的可控性。它提供了多種控制選項,可以透過文字、場景佈局、運動資訊來控制多視圖影片的生成,也為未來的神經模擬器提供了新的可能性

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

例如使用文字來改變天氣和光照:

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達


來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

例如,行人的產生和前景的編輯:來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

利用速度和方向的控制方法:來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

###來產生稀有事件,例如在路口掉頭或開進側方草叢######

來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達

結語

Drive-WM 不僅展示了其強大的多視圖視訊生成能力,也揭示了世界模型與端到端駕駛模型結合的巨大潛力。相信在未來,世界模型可以幫助實現更安全、穩定、可靠的端到端自動駕駛系統。

以上是來一趟未來之旅,首個多視圖預測+規劃自動駕駛世界模型抵達的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中