標題重寫:範圍感知:馴服LiDAR範圍視圖以實現高效準確的3D物體檢測
請點擊以下連結查看論文:https://openreview.net/pdf?id=9kFQEJSyCM
作者單位:上海人工智慧實驗室復旦大學 重寫後:單位:上海人工智慧實驗室復旦大學
目前,基於LiDAR 的3D 檢測方法主要使用鳥瞰圖(BEV)或range view(RV)作為基礎。 BEV 方法依賴體素化和 3D 卷積,這導致了訓練和推理過程的效率較低。相反,RV 方法由於其緊湊性和與 2D 卷積的兼容性而表現出更高的效率,但其性能仍然落後於 BEV 方法。為了消除性能差距,同時保持 RV 方法的效率,本研究提出了一種高效且準確的基於 RV 的 3D 目標檢測框架,稱為 RangePerception。透過細緻的分析,本研究確定了阻礙現有RV 方法性能的兩個關鍵挑戰:1)輸出中使用的3D 世界坐標與輸入中使用的2D range image 坐標之間存在自然域差距,這導致從range images 中擷取資訊變得困難;2)原始range image 有視覺損壞問題,影響位於range image 邊緣的目標的偵測精確度。為了解決這些挑戰,本文提出了兩種新穎演算法,名為 Range Aware Kernel(RAK)和 Vision Restoration Module(VRM),它們促進了 range image 表示和世界座標 3D 偵測結果的資訊流。在 RAK 和 VRM 的幫助下,在 Waymo Open Dataset 上,RangePerception 的平均 L1/L2 AP 較之前最先進的 RV 方法 RangeDet 提高了 3.25/4.18。 RangePerception 是第一個基於RV 的3D 檢測方法,與著名的基於BEV 的方法CenterPoint 相比,其平均AP 稍高,且推理速度是CenterPoint 的1.3 倍
本文展示了一種高效且準確的基於RV 的3D 檢測框架,稱為RangePerception。為了克服上述關鍵挑戰,提出了兩種名為Range Aware Kernel (RAK) 和Vision Restoration Module (VRM) 的新穎演算法,並將其整合到RangePerception 框架中,兩者都促進了range image 表示和世界座標3D檢測結果的資訊流。在 RAK 和 VRM 的幫助下,本文的 RangePerception 在 WOD 上為 vehicle & pedestrian & cyclist 提供了 73.62、80.24 和 70.33 L1 3D AP,作為 range-view-based 3D 檢測方法,實現了最先進的性能。本文的貢獻如下。
RangePerception Framework. 本文介紹了一個新穎的高效能 3D 偵測框架,名為 RangePerception。 RangePerception 是第一個基於RV 的3D 檢測器,在WOD 上實現了74.73/69.17 平均L1/L2 AP,優於之前最先進的基於RV 的檢測器RangeDet,後者的平均L1/L2 AP 為71.48/ 64.99,呈現3.25/4.18 的改良。與廣泛使用的基於 BEV 的方法 CenterPoint [6] 相比,RangePerception 也表現出了稍微優越的性能,後者的平均 L1/L2 AP 為 74.25/68.04。值得注意的是,RangePerception 的推理速度是 CenterPoint 的 1.3 倍,證明其更適合自動駕駛車輛上的即時部署。
Range Aware Kernel. 作為 RangePerception 特徵提取器的一部分, Range Aware Kernel (RAK) 是一種專為基於 RV 的網路量身定制的開創性演算法。 RAK 將 range image 空間分解為多個子空間,並透過從每個子空間中獨立提取特徵來克服空間錯位問題(Spatial Misalignment issue)。實驗結果表明,RAK 將平均 L1/L2 AP 提高了 5.75/5.99,而計算成本可以忽略不計。
Vision Restoration Module. 為了解決視覺損壞問題(Vision Corruption issue),本研究提出了 Vision Restoration Module(VRM)。 VRM 透過恢復先前損壞的區域來擴展 backbone 網路的感受野。 VRM 對於車輛偵測特別有幫助,如實驗部分所示。
圖2:RangePerception 框架採用 range image I 作為輸入,並產生密集預測。為了提高表示學習效果,該框架在 Range Backbone 之前依序整合了 VRM 和 RAK 模組。接著,採用專門設計的 Redundancy Pruner 消除深層特徵中的冗餘,從而減輕後續 Region Proposal Network 和後處理層的計算成本
圖 1:(a-d) 頂部 LiDAR 訊號的範例幀,分別以 RV 和 BEV 表示。 (e) 空間錯置現象(Spatial Misalignment phenomena)。 (f) 視覺損壞現象(Vision Corruption phenomena)。
圖3:Range Aware Kernel 將range image 空間分解為多個子空間,並透過從每個子空間提取獨立的特徵來克服空間錯位問題(Spatial Misalignment issue )。
#圖 5:Vision Restoration Module。透過預先定義恢復角 δ,VRM 建構了一個方位角 θ ∈ [−δ, 2π δ] 的擴展球面空間。因此, range image I 兩側的視覺損壞問題都得到了解決,顯著簡化了從 I 邊緣提取特徵的過程。
這篇文章闡述了RangePerception,是一種基於RV的三維偵測框架,能夠有效地解決空間錯置和視覺損壞的難題。透過引入RAK和VRM技術,RangePerception在WOD上展現了卓越的檢測能力,同時也展示了其高效、準確的實際部署潛力
@inproceedings{bai2023rangeperception,title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection},author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI},booktitle={Thirty-seventh Conference on Neural Information Processing Systems},year={2023},url={https://openreview.net/forum?id=9kFQEJSyCM}}
原文連結:https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w
以上是新的Range View3D檢測思路:RangePerception的詳細內容。更多資訊請關注PHP中文網其他相關文章!