搜尋
首頁科技週邊人工智慧ViP3D: 透過3D智體query實現端到端視覺軌跡預測

arXiv論文“ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries“,22年8月2日上傳,清華、上海(姚)期智研究院、CMU、復旦、理想汽車和MIT等的聯合工作。

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

現有的自主駕駛管線將感知模組與預測模組分開。這兩個模組透過人工選擇的特徵進行通信,如智體框和軌跡作為介面。由於這種分離,預測模組僅從感知模組接收部分資訊。更糟的是,來自感知模組的錯誤可能會傳播和累積,從而對預測結果產生不利影響。

這項工作提出ViP3D,一種視覺軌跡預測管線,利用原始影片的豐富資訊預測場景中智體的未來軌跡。 ViP3D在整個管線中使用稀疏智體query,使其完全可微分和可解釋。此外,提出一種新的端到端視覺軌跡預測任務的評估指標,端到端預測精度(EPA,End-to-end Prediction Accuracy),其在綜合考慮感知和預測精度的同時,對預測軌跡與地面真實軌跡進行評分。

如圖是傳統多步驟級聯流水線與ViP3D的比較:傳統的管線涉及多個不可微模組,例如偵測、追蹤和預測;ViP3D將多視圖視訊作為輸入,以端到端的方式產生預測軌跡,可有效利用視覺訊息,例如車輛轉向訊號。

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

ViP3D旨在以端到端的方式解決原始影片的軌跡預測問題。具體而言,給定多視圖視訊和高清地圖,ViP3D預測場景中所有智體的未來軌跡。

ViP3D的整體流程如圖所示:首先,基於查詢的追蹤器處理來自周圍攝影機的多視圖視頻,獲得有視覺特徵所追蹤智體的query。智體query中的視覺特徵,捕捉智體的運動動力學和視覺特徵,以及智體之間的關係。之後,軌跡預測器將追蹤智體的query作為輸入,並與HD地圖特徵相關聯,最後輸出預測的軌跡。

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

基於query的追蹤器從環繞攝影機的原始影片中提取視覺特徵。具體而言,對於每一幀,請按照DETR3D提取影像特徵。對於時域特徵聚合,依照MOTR(「Motr: End-to-end multiple-object tracking with transformer「. arXiv 2105.03247, 2021)設計了一個基於query的追蹤器,包括兩個關鍵步驟:query特徵更新和query監督。智體query會隨時間更新,建模智體的運動動力學。

大多數現有的軌跡預測方法可分為三個部分:智體編碼、地圖編碼和軌跡解碼。在基於query的追蹤之後,獲得被追蹤智體的query,該query可以被視為透過智體編碼獲得的智體特徵。因此,剩下的任務是地圖編碼和軌跡解碼。

分別將預測和真值智體表示為無序集Sˆ和S,其中每個智體由當前時間步的智體座標和K個可能的未來軌跡表示。對於每個智體類型c,計算Scˆ和Sc之間的預測精度。將預測智體和真值智體之間的成本定義為:

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

這樣Scˆ和Sc之間的EPA定義為:

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

#實驗結果如下:

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

ViP3D: 透過3D智體query實現端到端視覺軌跡預測

#註:這個目標渲染做的不錯。

以上是ViP3D: 透過3D智體query實現端到端視覺軌跡預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具