arXiv論文“JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes“,上傳於22年7月,報道關於澳大利亞悉尼大學陶大程教授和北京京東研究院的工作。
深度估計、視覺測程計(VO)和鳥瞰圖(BEV)場景佈局估計是駕駛場景感知的三個關鍵任務,這是自主駕駛中運動規劃和導航的基礎。雖然相互補充,但通常側重於單獨的任務,很少同時處理這三個任務。
一種簡單的方法是以順序或並行的方式獨立地完成,但有三種缺點,即1)深度和VO結果受到固有的尺度多義問題的影響;2) BEV佈局通常單獨估計道路和車輛,而忽略明確疊加-下墊關係;3)雖然深度圖是用於推斷場景佈局的有用幾何線索,但實際上直接從前視圖影像預測BEV佈局,並沒有使用任何深度相關資訊。
本文提出一個共同感知框架JPerceiver來解決這些問題,從單眼視訊序列中同時估計尺度-覺察深度、VO以及BEV佈局。以跨視圖幾何變換(cross-view geometric transformation,CGT),根據精心設計的尺度損失,將絕對尺度從道路佈局傳播到深度和VO。同時,設計一個跨視圖和模態轉換(cross-view and cross-modal transfer,CCT)模組,用深度線索透過注意機制推理道路和車輛佈局。
JPerceiver以端到端的多任務學習方式進行訓練,其中CGT尺度損失和CCT模組促進任務間知識遷移,利於每個任務的特徵學習。
程式碼與模型可下載https://github.com/sunnyHelen/JPerceiver.
如圖所示,JPerceiver分別由深度、姿態和道路佈局三個網路組成,都基於編碼器-解碼器架構。深度網路旨在預測目前幀It的深度圖Dt,其中每個深度值表示3D點與相機之間的距離。姿態網路的目標是預測在當前幀It及其相鄰幀It m之間姿態變換Tt→t m。道路佈局網路的目標是估計目前影格的BEV佈局Lt,即俯視笛卡爾平面中道路和車輛的語意佔用率。這三個網路在訓練期間聯合優化。
預測深度和姿態的兩個網路以自監督方式以光度損失和平滑度損失進行聯合最佳化。此外,也設計CGT尺度損失來解決單目深度和VO估計的尺度多義問題。
為實現尺度-覺察的環境感知,以BEV佈局中的尺度訊息,提出CGT的尺度損失用於深度估計和VO。由於BEV佈局顯示了BEV笛卡爾平面中的語意佔用,分別涵蓋自車前面Z米和左右(Z/2)米的範圍。其提供一個自然距離場(natural distance field)z,每個像素相對於自車的度量距離zij,如圖所示:
假設BEV平面是地面,其原點剛好在自車座標係原點下面,基於攝影機外參可以透過單應性變換將BEV平面投影到前向攝影機。因此,BEV距離場z可以投影到前向攝影機中,如上圖所示,用它來調節預測深度d,從而導出CGT尺度損失:
對於道路佈局估計,採用了編碼器-解碼器網路結構。值得注意的是,用一個共享編碼器作為特徵提取器和不同的解碼器來同時學習不同語義類別的BEV佈局。此外,設CCT模組,以加強任務間的特徵互動與知識遷移,並為BEV的空間推理提供3-D幾何資訊。為了正則化道路佈局網絡,將各種損失項組合在一起,形成混合損失,並實現不同類的平衡優化。
CCT是研究前向視圖特徵Ff、BEV佈局特徵Fb、重轉換的前向特徵Ff′和前向深度特徵FD之間的相關性,並相應地細化佈局特徵,如圖所示:分兩部分,即跨視圖模組和跨模態模組的CCT-CV和CCT-CM。
在CCT中,Ff和Fd由相應感知分支的編碼器提取,而Fb透過一個視圖投影MLP將Ff轉換為BEV獲得,一個循環損失約束的相同MLP將其重新轉換為Ff′。
在CCT-CV,交叉注意機制用於發現前向視圖和BEV特徵之間的幾何對應關係,然後指導前向視圖資訊的細化,並為BEV推理做好準備。為了充分利用前向視圖影像特徵,將Fb和Ff投影到patches:Qbi和Kbi,分別作為query和 key。
除了利用前向視圖特徵外,還部署CCT-CM來施加來自Fd的3-D幾何資訊。由於Fd是從前向視圖影像中提取的,因此以Ff為橋來減少跨模態間隙並學習Fd和Fb之間的對應關係是合理的。 Fd起Value的作用,由此獲得與BEV資訊相關有價值的3-D幾何訊息,並進一步提高道路佈局估計的準確性。
在探索同時預測不同版面的共同學習框架過程中,不同語意類別的特徵和分佈有很大差異。對於特徵,駕駛場景中的道路佈局通常需要連接,而不同的車輛目標必須分割。
對於分佈,觀察到的直線道路場景比轉彎場景多,這在真實資料集中是合理的。這種差異和不平衡增加了BEV佈局學習的難度,尤其是聯合預測不同類別,因為在這種情況下,簡單的交叉熵(CE)損失或L1損失會失效。將幾種分割損失(包括基於分佈的CE損失、基於區域的IoU損失和邊界損失)合併為混合損失,預測每個類別的佈局。
實驗結果如下:
以上是聯合駕駛場景中深度、姿態和道路估計的感知網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Dreamweaver Mac版
視覺化網頁開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。