UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

PHPz

Jan 23, 2024 pm 12:36 PM

數據模型

寫在前面&個人理解

近年來，自動駕駛技術中以視覺為中心的3D感知得到了迅速發展。儘管3D感知模型在結構和概念上相似，但在特徵表示、資料格式和目標方面仍存在差距，這對設計統一高效的3D感知框架提出了挑戰。因此，研究人員需要努力解決這些差距，以實現更準確、可靠的自動駕駛系統。透過合作和創新，我們有望進一步提升自動駕駛的安全性和性能。

特別是在BEV下的檢測任務和Occupancy任務方面，要實現聯合訓練並取得良好效果是非常困難的。由於不穩定性和效果難以控制，這給許多應用帶來了極大的困擾。然而，UniVision是一個簡單且有效率的框架，它統一了以視覺為中心的3D感知的兩個主要任務，即佔用預測和目標偵測。此框架的核心是一個顯式-隱式視圖變換模組，用於互補2D-3D特徵轉換。此外，UniVision還提出了一個局部全局特徵提取和融合模組，用於高效和自適應的體素和BEV特徵的提取、增強和交互作用。透過採用這些方法，UniVision能夠在BEV下的檢測任務和Occupancy任務中取得令人滿意的結果。

UniVision提出了一種聯合佔用偵測資料增強策略和漸進式loss weight調整策略，以提高多任務框架訓練的效率和穩定性。在四個公共基準上進行了廣泛的實驗，包括無場景雷射雷達分割、無場景偵測、OpenOccupancy和Occ3D。實驗結果顯示，UniVision在每個基準上分別實現了 1.5 mIoU、 1.8 NDS、 1.5 mIoU和 1.8 mIoU的增益，達到了SOTA水準。因此，UniVision框架可以作為統一的以視覺為中心的3D感知任務的高性能基線。

目前3D感知領域的狀態

3D感知是自動駕駛系統的首要任務，其目的是利用一系列感測器（如光達、雷達和相機）所獲得的數據來全面了解駕駛場景，用於後續的規劃和決策。過去，由於來自點雲資料的精確3D訊息，3D感知領域一直由基於雷射雷達的模型主導。然而，基於光達的系統成本高昂，容易受到惡劣天氣的影響，而且部署起來不方便。相較之下，基於視覺的系統具有許多優點，如低成本、易於部署和良好的可擴展性。因此，以視覺為中心的三維感知引起了研究者的廣泛關注。

最近，透過改進特徵表示變換、時間融合和監督訊號設計等方面，基於視覺的3D檢測取得了顯著進展，與基於光達的模型的差距不斷縮小。此外，基於視覺的佔用任務近年來也得到了快速發展。與使用3D box來表示目標不同，佔用率可以更全面地描述駕駛場景的幾何和語義特徵，且不受目標形狀和類別的限制。

雖然檢測方法和占用方法在結構和概念上有相似之處，但對於同時處理這兩個任務並探索它們之間相互關係的研究還不充分。佔用模型和偵測模型通常會提取不同的特徵表示。佔用預測任務需要進行詳盡的語意和幾何判斷，因此廣泛使用體素表示來保存細粒度的3D資訊。然而，在偵測任務中，BEV表示更為優選，因為大多數物件位於相同的水平水平面上，且有較小的重疊。

與BEV表示相比，體素表示在精細度方面更高，但效率較低。此外，許多高階算子主要針對2D特徵進行設計和最佳化，使其與3D體素表示的整合較不簡單。 BEV表示在時間效率和記憶體效率方面更具優勢，但對於密集空間預測來說，它是次優的，因為在高度維度上失去了結構資訊。除了特徵表示，不同的感知任務在資料格式和目標方面也有所不同。因此，確保訓練多任務3D感知框架的統一性和效率是一項巨大的挑戰。

UniVision網路結構

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

UniVision框架的整體架構如圖1所示。此框架接收來自周圍N個相機的多視角影像作為輸入，並透過影像特徵提取網路提取影像特徵。接下來，利用Ex-Im視圖變換模組將2D影像特徵轉換為3D體素特徵。此模組融合了深度引導的明確特徵提升和查詢引導的隱式特徵採樣。經過視圖變換後，體素特徵被送入局部全局特徵提取和融合塊，以分別提取局部上下文感知的體素特徵和全局上下文感知的BEV特徵。接下來，透過交叉表示特徵交互模組，對用於不同下游感知任務的體素特徵和BEV特徵進行資訊交換。在訓練過程中，UniVision框架採用聯合Occ-Det資料增強和漸進loss weight調整策略進行有效訓練。這些策略可以提高框架的訓練效果和泛化能力。總之，UniVision框架透過多視角影像和3D體素特徵的處理，以及特徵互動模組的應用，實現了對周圍環境的感知任務。同時，透過資料增強和loss weight調整策略的應用，有效提升了框架的訓練效果。

1）Ex-Im View Transform

深度導向明確特性提升。這裡遵循LSS方法：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

2）查詢引導的隱式特徵取樣。然而，在表示3D資訊方面存在一些缺陷。的精度與估計的深度分佈的精度高度相關。此外，LSS產生的點分佈不均勻。點在相機附近密集，在距離上稀疏。因此，我們進一步使用查詢引導的特徵採樣來補償的上述缺點。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

與從LSS產生的點相比，體素查詢在3D空間中均勻分佈，並且它們是從所有訓練樣本的統計特性中學習的，這與LSS中使用的深度先驗資訊無關。因此，和相互補充，將它們連接起來作為視圖變換模組的輸出特徵：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

#2）局部全局特徵提取與融合

#給定輸入體素特徵，首先將特徵疊加在Z軸上，並使用卷積層來減少通道，以獲得BEV特徵：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

然後，模型分成兩個平行的分支進行特徵提取和增強。局部特徵提取全域特徵提取，以及最後的交叉表示特徵交互作用！如圖1（b）所示。

3）損失函數與偵測頭

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！漸進式loss weight調整策略。在實踐中，發現直接結合上述損失往往會導致訓練過程失敗，網路無法收斂。在訓練的早期階段，體素特徵Fvoxel是隨機分佈的，佔用頭和檢測頭中的監督比收斂中的其他損失貢獻更小。同時，檢測任務中的分類損失Lcls等損失項目非常大，並且在訓練過程中占主導地位，使得模型難以優化。為了克服這個問題，提出了漸進式損失權重調整策略來動態調整損失權重。具體而言，將控制參數δ添加到非影像級損失（即佔用損失和偵測損失）中，以調整不同訓練週期中的損失權重。控制權重δ在開始時被設定為較小的值Vmin，並在N個訓練時期中逐漸增加到Vmax：

#########

4）聯合Occ-Det空間資料增強

在3D偵測任務中，除了常見的影像層級資料增強之外，空間層級資料增強在提升模型效能方面也是有效的。然而，在佔用任務中應用空間層級增強並不簡單。當我們將資料擴充（如隨機縮放和旋轉）應用於離散佔用標籤時，很難確定產生的體素語義。因此，現有的方法只應用簡單的空間擴充，如佔用任務中的隨機翻轉。

為了解決這個問題，UniVision提出了一種聯合Occ-Det空間資料增強，以允許在框架中同時增強3D偵測任務和佔用任務。由於3D box標籤是連續值，並且可以直接計算增強的3D box進行訓練，因此遵循BEVDet中的增強方法進行檢測。儘管佔用標籤是離散的並且難以操作，但體素特徵可以被視為連續的，並且可以透過採樣和插值等操作來處理。因此建議對體素特徵進行變換，而不是直接對佔用標籤進行操作以進行資料擴充。

具體來說，首先對空間資料增強進行取樣，並計算對應的3D變換矩陣。對於佔有標籤及其voxel indices ，我們計算了它們的三維座標。然後，將應用於，並對其進行歸一化，以獲得增強體素特徵中的voxel indices ：

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

實驗結果比較

使用了多個資料集進行驗證，NuScenes LiDAR Segmentation、NuScenes 3D Object Detection、OpenOccupancy和Occ3D。

NuScenes LiDAR Segmentation：根據最近的OccFormer和TPVFormer，使用相機影像作為雷射雷達分割任務的輸入，且雷射雷達資料僅用於提供用於查詢輸出特徵的3D位置。使用mIoU作為評估度量。

NuScenes 3D Object Detection：對於檢測任務，使用nuScenes的官方度量，即nuScene檢測分數（NDS），它是平均mAP和幾個度量的加權和，包括平均平移誤差（ATE）、平均尺度誤差（ASE）、平均方向誤差（AOE）、平均速度誤差（AVE）和平均屬性誤差（AAE）。

OpenOccupancy：OpenOccupancy基準基於nuScenes資料集，提供512×512×40解析度的語意佔用標籤。標記的類別與雷射雷達分割任務中的類別相同，使用mIoU作為評估度量！

Occ3D：Occ3D基準基於nuScenes資料集，提供200×200×16解析度的語意佔用標籤。 Occ3D進一步提供了用於訓練和評估的可見mask。標記的類別與雷射雷達分割任務中的類別相同，使用mIoU作為評估度量！

1）Nuscenes雷射雷達分割

表1顯示了nuScenes LiDAR分割基準的結果。 UniVision顯著超過了最先進的基於視覺的方法OccFormer 1.5% mIoU，並在排行榜上創下了基於視覺的模型的新紀錄。值得注意的是，UniVision也優於一些基於雷射雷達的模型，如PolarNe和DB-UNet。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

2）NuScenes 3D目標偵測任務

如表2所示，當使用相同的訓練設定進行公平比較時，UniVision顯示出優於其他方法。與512×1408影像解析度的BEVDepth相比，UniVision在mAP和NDS方面分別獲得2.4%和1.1%的增益。當放大模型並將UniVision與時間輸入結合時，它進一步以顯著的優勢優於基於SOTA的時序偵測器。 UniVision透過較小的輸入解析度實現了這一點，而且它不使用CBGS。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

3）OpenOccupancy結果比較

OpenOccupancy基準測試的結果如表3所示。 UniVision在mIoU方面分別顯著超過了最近的基於視覺的佔用方法，包括MonoScene、TPVFormer和C-CONet，分別為7.3%、6.5%和1.5%。此外，UniVision超越了一些基於雷射雷達的方法，如LMSCNet和JS3C-Net。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

4）Occ3D實驗結果

表4列出了Occ3D基準測試的結果。在不同的輸入影像解析度下，UniVision在mIoU方面顯著優於最近的基於視覺的方法，分別超過2.7%和1.8%。值得注意的是，BEVFormer和BEVDet-stereo加載預先訓練的權重，並在推理中使用時間輸入，而UniVision沒有使用它們，但仍然實現了更好的性能。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

5）組件在檢測任務中的有效性

#在表5中顯示了檢測任務的消融研究。當將基於BEV的全局特徵提取分支插入基線模型時，效能提高了1.7%mAP和3.0%NDS。當將基於體素的佔用任務作為輔助任務新增至偵測器時，模型的mAP增益提高了1.6%。當從體素特徵中明確引入交叉表示交互作用時，該模型實現了最佳性能，與基線相比，mAP和NDS分別提高了3.5%和4.2%；

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

6）佔用任務中組件的有效性

在表6中顯示了佔用任務的消融研究。基於體素的局部特徵提取網絡為基線模型帶來了1.96%mIoU增益的改進。當檢測任務被引入作為輔助監督訊號時，模型效能提高了0.4%mIoU。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

7）其它

#表5和表6顯示，在UniVision框架中，偵測任務和佔用任務都是相輔相成的。對於偵測任務，佔用監督可以提高mAP和mATE測量，這表明體素語義學習有效地提高了偵測器對目標幾何的感知，即中心度和尺度。對於佔用任務，偵測監督顯著提高了前景類別（即偵測類別）的效能，從而實現了整體改進。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

在表7中展示了聯合Occ-Det空間增強、Ex-Im視圖轉換模組和漸進loss weight調整策略的有效性。透過所提出的空間增強和所提出的視圖變換模組，它在mIoU、mAP和NDS度量上顯示了檢測任務和占用任務的顯著改進。 loss weight調整策略能夠有效訓練多任務框架。如果沒有這一點，統一框架的訓練就無法收斂，表現也很低。

UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！

原文連結：https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ

以上是UniVision引進新一代統一框架：BEV偵測與Occupancy雙任務達到最先進水準！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例