搜尋
首頁科技週邊人工智慧逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

寫在前面&個人理解

近年來,自動駕駛技術中以視覺為中心的3D感知迅速取得進展。儘管各種3D感知模型在結構和概念上有許多相似之處,但在特徵表示、資料格式和目標方面仍存在一些差異,這給統一高效的3D感知框架設計帶來了挑戰。因此,研究人員正努力尋找解決方案,以便更好地整合不同模型之間的差異,從而建立更完善和更有效率的3D感知系統。這種努力可望為自動駕駛領域帶來更可靠和先進的技術,使其在複雜環境下具備更強

特別是BEV下的檢測任務和Occupancy任務,想做好聯合訓練,還是很難的,不穩定和效果不可控讓很多應用頭大。 UniVision是一個簡單且有效率的框架,它統一了以視覺為中心的3D感知中的兩個主要任務,即佔用預測和目標偵測。核心點是一個用於互補2D-3D feature transformation的顯式-隱式視圖變換模組,UniVision提出了一個局部全局特徵提取和融合模組,用於高效和自適應的體素和BEV特徵提取、增強和交互。

在資料增強部分,UniVision也提出了一種聯合佔用偵測資料增強策略和漸進式loss weight調整策略,以提高多任務框架訓練的效率和穩定性。在四個公共基準上對不同的感知任務進行了廣泛的實驗,包括無場景雷射雷達分割、無場景檢測、OpenOccupancy和Occ3D。 UniVision在每個基準上分別以 1.5 mIoU、 1.8 NDS、 1.5 mIoU和 1.8 mIoU的增益實現了SOTA。 UniVision框架可以作為統一的以視覺為中心的3D感知任務的高性能基準。

如果對BEV和Occupancy任務不熟悉的同學,也歡迎大家進一步學習我們的BEV感知教程Occupancy佔用網絡教程,了解更多技術細節!

目前3D感知領域的狀態

3D感知是自動駕駛系統的首要任務,其目的是利用一系列感測器(如光達、雷達和相機)所獲得的數據來全面了解駕駛場景,用於後續的規劃和決策。過去,由於來自點雲資料的精確3D訊息,3D感知領域一直由基於雷射雷達的模型主導。然而,基於光達的系統成本高昂,容易受到惡劣天氣的影響,而且部署起來不方便。相較之下,基於視覺的系統具有許多優點,如低成本、易於部署和良好的可擴展性。因此,以視覺為中心的三維感知引起了研究者的廣泛關注。

最近,透過特徵表示變換、時間融合和監督訊號設計,基於視覺的3D檢測得到了顯著改進,不斷縮小了與基於光達的模型的差距。除此之外,近年來基於視覺的佔用任務得到了快速發展。與使用3D box來表示一些目標不同,佔用率可以更全面地描述駕駛場景的幾何和語義,並且不太局限於目標的形狀和類別。

儘管檢測方法和占用方法在結構和概念上有很多相似之處,但同時處理這兩項任務並探索它們之間的相互關係並沒有得到很好的研究。佔用模型和偵測模型通常會提取不同的特徵表示。佔用預測任務需要在不同的空間位置上進行詳盡的語意和幾何判斷,因此體素表示被廣泛用於保存細粒度的3D資訊。在偵測任務中,BEV表示是優選的,因為大多數物件處於相同的水平水平面上,具有較小的重疊。

與BEV表示相比,體素表示是精細的,但效率較低。此外,許多高階算子主要針對2D特徵進行設計和最佳化,使其與3D體素表示的整合較不簡單。 BEV表示更具時間效率和記憶體效率,但對於密集空間預測來說,它是次優的,因為它在高度維度上失去了結構資訊。除了特徵表示,不同的感知任務在資料格式和目標方面也有所不同。因此,確保訓練多任務3D感知框架的統一性和效率是一項巨大的挑戰。

UniVision網路結構

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

UniVision框架的整體結構如圖1所示。此框架接收來自N個周圍相機的多視角影像作為輸入,並透過影像特徵提取網路提取影像特徵。接著,利用Ex-Im視圖變換模組將2D影像特徵升級為3D體素特徵,該模組結合了深度引導的明確特徵提升和查詢引導的隱式特徵採樣。體素特徵經過局部全局特徵提取和融合block處理,以分別提取局部上下文感知的體素特徵和全局上下文感知的BEV特徵。隨後,透過交叉表示特徵交互模組對用於不同下游感知任務的體素特徵和BEV特徵進行資訊交換。在訓練階段,UniVision框架採用聯合Occ-Det資料增強和逐步調整loss權重的策略,以有效地進行訓練。

1)Ex-Im View Transform

深度導向明確特性提升。這裡遵循LSS方法:

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

2)查詢引導的隱式特徵取樣。然而,在表示3D資訊方面存在一些缺陷。的精度與估計的深度分佈的精度高度相關。此外,LSS產生的點分佈不均勻。點在相機附近密集,在距離上稀疏。因此,我們進一步使用查詢引導的特徵採樣來補償的上述缺點。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

與從LSS產生的點相比,體素查詢在3D空間中均勻分佈,並且它們是從所有訓練樣本的統計特性中學習的,這與LSS中使用的深度先驗資訊無關。因此,和相互補充,將它們連接起來作為視圖變換模組的輸出特徵:

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

#2)局部全局特徵提取與融合

#給定輸入體素特徵,首先將特徵疊加在Z軸上,並使用卷積層來減少通道,以獲得BEV特徵:

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

然後,模型分成兩個平行的分支進行特徵提取和增強。局部特徵提取 全域特徵提取,以及最後的交叉表示特徵交互作用!如圖1(b)所示。

3)損失函數與偵測頭

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!漸進式loss weight調整策略。在實踐中,發現直接結合上述損失往往會導致訓練過程失敗,網路無法收斂。在訓練的早期階段,體素特徵Fvoxel是隨機分佈的,佔用頭和檢測頭中的監督比收斂中的其他損失貢獻更小。同時,檢測任務中的分類損失Lcls等損失項目非常大,並且在訓練過程中占主導地位,使得模型難以優化。為了克服這個問題,提出了漸進式損失權重調整策略來動態調整損失權重。具體而言,將控制參數δ添加到非影像級損失(即佔用損失和偵測損失)中,以調整不同訓練週期中的損失權重。控制權重δ在開始時被設定為較小的值Vmin,並在N個訓練時期中逐漸增加到Vmax:

##4)聯合Occ- Det空間資料增強

###在3D偵測任務中,除了常見的影像級資料增強之外,空間級資料增強在提高模型效能方面也是有效的。然而,在佔用任務中應用空間層級增強並不簡單。當我們將資料擴充(如隨機縮放和旋轉)應用於離散佔用標籤時,很難確定產生的體素語義。因此,現有的方法只應用簡單的空間擴充,如佔用任務中的隨機翻轉。 ###

為了解決這個問題,UniVision提出了一種聯合Occ-Det空間資料增強,以允許在框架中同時增強3D檢測任務和占用任務。由於3D box標籤是連續值,並且可以直接計算增強的3D box進行訓練,因此遵循BEVDet中的增強方法進行檢測。儘管佔用標籤是離散的並且難以操作,但體素特徵可以被視為連續的,並且可以透過採樣和插值等操作來處理。因此建議對體素特徵進行變換,而不是直接對佔用標籤進行操作以進行資料擴充。

具體來說,首先對空間資料增強進行取樣,並計算對應的3D變換矩陣。對於佔有標籤及其voxel indices ,我們計算了它們的三維座標。然後,將應用於,並對其進行歸一化,以獲得增強體素特徵中的voxel indices 

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

實驗結果比較

使用了多個資料集進行驗證,NuScenes LiDAR Segmentation、NuScenes 3D Object Detection、OpenOccupancy和Occ3D。

NuScenes LiDAR Segmentation:根據最近的OccFormer和TPVFormer,使用相機影像作為雷射雷達分割任務的輸入,且雷射雷達資料僅用於提供用於查詢輸出特徵的3D位置。使用mIoU作為評估度量。

NuScenes 3D Object Detection:對於檢測任務,使用nuScenes的官方度量,即nuScene檢測分數(NDS),它是平均mAP和幾個度量的加權和,包括平均平移誤差(ATE)、平均尺度誤差(ASE)、平均方向誤差(AOE)、平均速度誤差(AVE)和平均屬性誤差(AAE)。

OpenOccupancy:OpenOccupancy基準基於nuScenes資料集,提供512×512×40解析度的語意佔用標籤。標記的類別與雷射雷達分割任務中的類別相同,使用mIoU作為評估度量!

Occ3D:Occ3D基準基於nuScenes資料集,提供200×200×16解析度的語意佔用標籤。 Occ3D進一步提供了用於訓練和評估的可見mask。標記的類別與雷射雷達分割任務中的類別相同,使用mIoU作為評估度量!

1)Nuscenes雷射雷達分割

表1顯示了nuScenes LiDAR分割基準的結果。 UniVision顯著超過了最先進的基於視覺的方法OccFormer 1.5% mIoU,並在排行榜上創下了基於視覺的模型的新紀錄。值得注意的是,UniVision也優於一些基於雷射雷達的模型,如PolarNe和DB-UNet。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

2)NuScenes 3D目標偵測任務

如表2所示,當使用相同的訓練設定進行公平比較時,UniVision顯示出優於其他方法。與512×1408影像解析度的BEVDepth相比,UniVision在mAP和NDS方面分別獲得2.4%和1.1%的增益。當放大模型並將UniVision與時間輸入結合時,它進一步以顯著的優勢優於基於SOTA的時序偵測器。 UniVision透過較小的輸入解析度實現了這一點,而且它不使用CBGS。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

3)OpenOccupancy結果比較

OpenOccupancy基準測試的結果如表3所示。 UniVision在mIoU方面分別顯著超過了最近的基於視覺的佔用方法,包括MonoScene、TPVFormer和C-CONet,分別為7.3%、6.5%和1.5%。此外,UniVision超越了一些基於雷射雷達的方法,如LMSCNet和JS3C-Net。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

4)Occ3D實驗結果

表4列出了Occ3D基準測試的結果。在不同的輸入影像解析度下,UniVision在mIoU方面顯著優於最近的基於視覺的方法,分別超過2.7%和1.8%。值得注意的是,BEVFormer和BEVDet-stereo加載預先訓練的權重,並在推理中使用時間輸入,而UniVision沒有使用它們,但仍然實現了更好的性能。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

5)組件在檢測任務中的有效性

在表5中顯示了檢測任務的消融研究。當將基於BEV的全局特徵提取分支插入基線模型時,效能提高了1.7%mAP和3.0%NDS。當將基於體素的佔用任務作為輔助任務新增至偵測器時,模型的mAP增益提高了1.6%。當從體素特徵中明確引入交叉表示交互作用時,該模型實現了最佳性能,與基線相比,mAP和NDS分別提高了3.5%和4.2%;

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

6)佔用任務中組件的有效性

在表6中顯示了佔用任務的消融研究。基於體素的局部特徵提取網絡為基線模型帶來了1.96%mIoU增益的改進。當檢測任務被引入作為輔助監督訊號時,模型效能提高了0.4%mIoU。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

7)其它

#表5和表6顯示,在UniVision框架中,偵測任務和佔用任務都是相輔相成的。對於偵測任務,佔用監督可以提高mAP和mATE測量,這表明體素語義學習有效地提高了偵測器對目標幾何的感知,即中心度和尺度。對於佔用任務,偵測監督顯著提高了前景類別(即偵測類別)的效能,從而實現了整體改進。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

在表7中展示了聯合Occ-Det空間增強、Ex-Im視圖轉換模組和漸進loss weight調整策略的有效性。透過所提出的空間增強和所提出的視圖變換模組,它在mIoU、mAP和NDS度量上顯示了檢測任務和占用任務的顯著改進。 loss weight調整策略能夠有效訓練多任務框架。如果沒有這一點,統一框架的訓練就無法收斂,表現也很低。

逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!

參考

論文連結:https://arxiv.org/pdf/2401.06994.pdf

#論文名稱:UniVision: A Unified Framework for Vision-Centric 3D Perception

#

以上是逆天UniVision:BEV檢測和Occ聯合統一框架,雙SOTA!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器