arXiv論文“JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes“,上傳於22年7月,報道關於澳大利亞悉尼大學陶大程教授和北京京東研究院的工作。
深度估計、視覺測程計(VO)和鳥瞰圖(BEV)場景佈局估計是駕駛場景感知的三個關鍵任務,這是自主駕駛中運動規劃和導航的基礎。雖然相互補充,但通常側重於單獨的任務,很少同時處理這三個任務。
一種簡單的方法是以順序或並行的方式獨立地完成,但有三種缺點,即1)深度和VO結果受到固有的尺度多義問題的影響;2) BEV佈局通常單獨估計道路和車輛,而忽略明確疊加-下墊關係;3)雖然深度圖是用於推斷場景佈局的有用幾何線索,但實際上直接從前視圖影像預測BEV佈局,並沒有使用任何深度相關資訊。
本文提出一個共同感知框架JPerceiver來解決這些問題,從單眼視訊序列中同時估計尺度-覺察深度、VO以及BEV佈局。以跨視圖幾何變換(cross-view geometric transformation,CGT),根據精心設計的尺度損失,將絕對尺度從道路佈局傳播到深度和VO。同時,設計一個跨視圖和模態轉換(cross-view and cross-modal transfer,CCT)模組,用深度線索透過注意機制推理道路和車輛佈局。
JPerceiver以端到端的多任務學習方式進行訓練,其中CGT尺度損失和CCT模組促進任務間知識遷移,利於每個任務的特徵學習。
程式碼與模型可下載https://github.com/sunnyHelen/JPerceiver.
如圖所示,JPerceiver分別由深度、姿態和道路佈局三個網路組成,都基於編碼器-解碼器架構。深度網路旨在預測目前幀It的深度圖Dt,其中每個深度值表示3D點與相機之間的距離。姿態網路的目標是預測在當前幀It及其相鄰幀It m之間姿態變換Tt→t m。道路佈局網路的目標是估計目前影格的BEV佈局Lt,即俯視笛卡爾平面中道路和車輛的語意佔用率。這三個網路在訓練期間聯合優化。
預測深度和姿態的兩個網路以自監督方式以光度損失和平滑度損失進行聯合最佳化。此外,也設計CGT尺度損失來解決單目深度和VO估計的尺度多義問題。
為實現尺度-覺察的環境感知,以BEV佈局中的尺度訊息,提出CGT的尺度損失用於深度估計和VO。由於BEV佈局顯示了BEV笛卡爾平面中的語意佔用,分別涵蓋自車前面Z米和左右(Z/2)米的範圍。其提供一個自然距離場(natural distance field)z,每個像素相對於自車的度量距離zij,如圖所示:
假設BEV平面是地面,其原點剛好在自車座標係原點下面,基於攝影機外參可以透過單應性變換將BEV平面投影到前向攝影機。因此,BEV距離場z可以投影到前向攝影機中,如上圖所示,用它來調節預測深度d,從而導出CGT尺度損失:
對於道路佈局估計,採用了編碼器-解碼器網路結構。值得注意的是,用一個共享編碼器作為特徵提取器和不同的解碼器來同時學習不同語義類別的BEV佈局。此外,設CCT模組,以加強任務間的特徵互動與知識遷移,並為BEV的空間推理提供3-D幾何資訊。為了正則化道路佈局網絡,將各種損失項組合在一起,形成混合損失,並實現不同類的平衡優化。
CCT是研究前向視圖特徵Ff、BEV佈局特徵Fb、重轉換的前向特徵Ff′和前向深度特徵FD之間的相關性,並相應地細化佈局特徵,如圖所示:分兩部分,即跨視圖模組和跨模態模組的CCT-CV和CCT-CM。
在CCT中,Ff和Fd由相應感知分支的編碼器提取,而Fb透過一個視圖投影MLP將Ff轉換為BEV獲得,一個循環損失約束的相同MLP將其重新轉換為Ff′。
在CCT-CV,交叉注意機制用於發現前向視圖和BEV特徵之間的幾何對應關係,然後指導前向視圖資訊的細化,並為BEV推理做好準備。為了充分利用前向視圖影像特徵,將Fb和Ff投影到patches:Qbi和Kbi,分別作為query和 key。
除了利用前向視圖特徵外,還部署CCT-CM來施加來自Fd的3-D幾何資訊。由於Fd是從前向視圖影像中提取的,因此以Ff為橋來減少跨模態間隙並學習Fd和Fb之間的對應關係是合理的。 Fd起Value的作用,由此獲得與BEV資訊相關有價值的3-D幾何訊息,並進一步提高道路佈局估計的準確性。
在探索同時預測不同版面的共同學習框架過程中,不同語意類別的特徵和分佈有很大差異。對於特徵,駕駛場景中的道路佈局通常需要連接,而不同的車輛目標必須分割。
對於分佈,觀察到的直線道路場景比轉彎場景多,這在真實資料集中是合理的。這種差異和不平衡增加了BEV佈局學習的難度,尤其是聯合預測不同類別,因為在這種情況下,簡單的交叉熵(CE)損失或L1損失會失效。將幾種分割損失(包括基於分佈的CE損失、基於區域的IoU損失和邊界損失)合併為混合損失,預測每個類別的佈局。
實驗結果如下:
以上是聯合駕駛場景中深度、姿態和道路估計的感知網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!
![無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

禪工作室 13.0.1
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具