arXiv論文“ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries“,22年8月2日上傳,清華、上海(姚)期智研究院、CMU、復旦、理想汽車和MIT等的聯合工作。
現有的自主駕駛管線將感知模組與預測模組分開。這兩個模組透過人工選擇的特徵進行通信,如智體框和軌跡作為介面。由於這種分離,預測模組僅從感知模組接收部分資訊。更糟的是,來自感知模組的錯誤可能會傳播和累積,從而對預測結果產生不利影響。
這項工作提出ViP3D,一種視覺軌跡預測管線,利用原始影片的豐富資訊預測場景中智體的未來軌跡。 ViP3D在整個管線中使用稀疏智體query,使其完全可微分和可解釋。此外,提出一種新的端到端視覺軌跡預測任務的評估指標,端到端預測精度(EPA,End-to-end Prediction Accuracy),其在綜合考慮感知和預測精度的同時,對預測軌跡與地面真實軌跡進行評分。
如圖是傳統多步驟級聯流水線與ViP3D的比較:傳統的管線涉及多個不可微模組,例如偵測、追蹤和預測;ViP3D將多視圖視訊作為輸入,以端到端的方式產生預測軌跡,可有效利用視覺訊息,例如車輛轉向訊號。
ViP3D旨在以端到端的方式解決原始影片的軌跡預測問題。具體而言,給定多視圖視訊和高清地圖,ViP3D預測場景中所有智體的未來軌跡。
ViP3D的整體流程如圖所示:首先,基於查詢的追蹤器處理來自周圍攝影機的多視圖視頻,獲得有視覺特徵所追蹤智體的query。智體query中的視覺特徵,捕捉智體的運動動力學和視覺特徵,以及智體之間的關係。之後,軌跡預測器將追蹤智體的query作為輸入,並與HD地圖特徵相關聯,最後輸出預測的軌跡。
基於query的追蹤器從環繞攝影機的原始影片中提取視覺特徵。具體而言,對於每一幀,請按照DETR3D提取影像特徵。對於時域特徵聚合,依照MOTR(「Motr: End-to-end multiple-object tracking with transformer「. arXiv 2105.03247, 2021)設計了一個基於query的追蹤器,包括兩個關鍵步驟:query特徵更新和query監督。智體query會隨時間更新,建模智體的運動動力學。
大多數現有的軌跡預測方法可分為三個部分:智體編碼、地圖編碼和軌跡解碼。在基於query的追蹤之後,獲得被追蹤智體的query,該query可以被視為透過智體編碼獲得的智體特徵。因此,剩下的任務是地圖編碼和軌跡解碼。
分別將預測和真值智體表示為無序集Sˆ和S,其中每個智體由當前時間步的智體座標和K個可能的未來軌跡表示。對於每個智體類型c,計算Scˆ和Sc之間的預測精度。將預測智體和真值智體之間的成本定義為:
這樣Scˆ和Sc之間的EPA定義為:
#實驗結果如下:
#註:這個目標渲染做的不錯。
以上是ViP3D: 透過3D智體query實現端到端視覺軌跡預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具