首頁  >  文章  >  科技週邊  >  AAAI2024:Far3D - 創新的直接幹到150m視覺3D目標偵測思路

AAAI2024:Far3D - 創新的直接幹到150m視覺3D目標偵測思路

PHPz
PHPz轉載
2023-12-15 13:54:53939瀏覽

最近在 Arxiv 上阅读到一篇关于纯视觉环视感知的最新研究,该研究基于 PETR 系列方法,并专注于解决远距离目标检测的纯视觉感知问题,将感知范围扩大到150米。这篇论文的方法和结果对我们来说有很大的参考价值,所以我尝试着对其进行解读

原标题:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文链接:https://arxiv.org/abs/2308.09616
作者单位:北京理工大学 & 旷视科技

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

任务背景

三维物体检测在理解自动驾驶的三维场景方面发挥着重要作用,其目的是对自车周围的物体进行精确定位和分类。纯视觉环视感知方法具有成本低、适用性广等优点,已取得显著进展。然而,它们大多侧重于近距离感知(例如,nuScenes的感知距离约为 50 米),对远距离探测领域的探索较少。检测远距离物体对于实际驾驶中保持安全距离至关重要,尤其是在高速或复杂路况下。

近来,从环视图像中进行三维物体检测取得了显著进展,其部署成本较低。然而,大多数研究主要集中在近距离感知范围,对远距离检测的研究较少。将现有方法直接扩展到覆盖长距离会面临计算成本高、收敛性不稳定等挑战。为了解决这些局限性,本文提出了一种新的基于稀疏查询的框架,称为 Far3D。

论文思路

根据中间表征,现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

图1:Argoverse 2 数据集上,3D 检测和 2D 检测的性能对比。

在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战。

  1. 首先是召回性能较差。由于 query 在 3D 空间分布的稀疏性,在远距离范围只能产生少量匹配的 positive query。如上图所示,3D 检测的召回率较低,而现有 2D 检测的召回率要高得多,两者之间存在明显的性能差距。因此,利用高质量的 2D 物体先验来改进 3D query 是一种很有潜力的方法,它有利于实现物体的精确定位和全面覆盖。
  2. 其次,直接引入 2D 检测结果来帮助 3D 检测会面临误差传播的问题。如下图所示,两种主要来源是 1) 由于深度预测不准的物体定位误差;2) 随着距离的增大,视锥变换中的 3D 位置误差也会增大。这些 noisy query 会影响训练的稳定性,需要有效的去噪方法来优化。此外,在训练过程中,模型会表现出对密集的近距离物体过度拟合的倾向,而忽略稀疏分布的远距离物体。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

为了应对以上提到的问题,本文采取了以下设计方案:

  1. 除了從資料集中學到的 3D global query 外,還引入了由 2D 偵測結果產生的 3D adaptive query。具體地,首先利用 2D 偵測器和深度預測網路得到 2D 框和對應深度,再透過空間變換投射到 3D 空間,作為 3D adaptive query 的初始化。
  2. 為了適應不同距離的物體的尺度不同,設計了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特徵交互,有利於不同距離物體的特徵捕捉。例如,遠處物體需要大解析度的特徵,而近處則不同。模型透過這種設計可以自適應地與特徵互動。
  3. 設計了一種稱為 Range-modulated 3D Denoising 的策略,以減輕 query 錯誤傳播和收斂緩慢的問題。考慮到不同距離的 query 回歸難度不同,noisy query 根據真實框的距離和尺度來調整。將 GT 附近的多組 noisy query 輸入解碼器,分別實現重建3D 真實框(對於正樣本)和捨棄負樣本的作用。

主要貢獻

  1. 本文提出了一種新的基於稀疏query 的檢測框架,它利用高品質的2D object prior 來生成3D adaptive query, 從而擴大三維偵測的感知範圍。
  2. 本文設計了 Perspective-aware Aggregation 模組,它從不同尺度和視角聚合視覺特徵,以及一個基於目標距離的 3D Denoising 策略,來解決 query 誤差傳播和框架收斂問題。
  3. 在遠距離的 Argoverse 2 資料集的實驗結果表明,Far3D 超越了先前的環視方法,並優於幾種基於雷射雷達的方法。並且在 nuScenes 資料集上驗證了其通用性。

模型設計

Far3D 流程概覽:

  1. 將環視圖像輸入主幹網路和FPN層,編碼得到2D 影像特徵,並與相機參數進行編碼。
  2. 利用 2D 偵測器和深度預測網絡,產生可靠的 2D 物件框及其相應深度,然後透過相機變換投影到 3D 空間。
  3. 產生的3D adaptive query 與初始的 3D global query 結合,由解碼器層迭代回歸,以預測 3D 物件框。更進一步,該模型可透過長時序的 query 傳播實現時序建模。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

Perspective-aware Aggregation:

為了給遠距離偵測模型引入多尺度特徵,本文應用了3D spatial deformable attention。它先在 query 對應的 3D 位置附近進行偏移取樣,而後透過 3D-2D 視圖變換聚合影像特徵。這種方法取代 PETR 系列中的 global attention 的優點在於,計算量可以大幅降低。具體地,對於 3D 空間中的每個 query 的參考點,模型會學習其周圍的 M 個取樣偏移,並將這些偏移點投影到不同的 2D 視圖特徵中。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

其後,3D query 與投影得到的取樣特徵互動。透過這種方式,來自不同視角和尺度的各種特徵將透過考慮其相對重要性而匯聚到三維查詢中。

Range-modulated 3D Denoising:

不同距離的3D query 具有不同的回歸難度,這不同於現有的2D Denoising 方法(如DN-DETR,通常同等對待的2D query)。難度差異來自於 query 匹配密度和誤差傳播。一方面,與遠處物體相對應的 query 匹配度低於近處物體。另一方面,在 3D adaptive query 中引入二維先驗時,2D 物體框的微小誤差會被放大,更不用說這種影響會隨著物體距離的增加而增加。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應被視為 negative query。本文提出一種 3D Denoising 方法,旨在優化那些正樣本,並直接捨棄負樣本。

具體而言,作者透過同時添加正樣本和負樣本組來建立基於 GT 的嘈雜查詢。對於這兩種類型,都會根據物體的位置和大小應用隨機噪聲,以促進遠距離感知中的去噪學習。具體來說,正樣本是在3D框內的隨機點,而負樣本則在GT上施加更大的偏移,偏移範圍隨著物體的距離而變化。這種方法可以在訓練過程中模擬有雜訊的候選正樣本和誤報樣本

實驗結果

Far3D 在150m 感知範圍的Argoverse 2 上取得了最高的性能。而模型 scale up 之後,可以達到幾個 Lidar-based 方法的性能,展現了純視覺方法的潛力。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

為了驗證泛化效能,作者也在 nuScenes 資料集上做了實驗,顯示在驗證集和測試集上都達到 SoTA 效能。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

經過消融實驗,我們得出了以下結論:3D自適應查詢、透視感知聚合和範圍調節的3D降噪各自都具有一定的增益

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

論文思考

Q:這篇文章有什麼novelty?
A:主要novelty 是解決遠距離場景的感知問題。現有方法拓展到遠距離場景有許多問題,計算成本和收斂困難等。本文作者為這個任務提出了一個高效率的架構。儘管單拎出來各個模組似曾相識,它們都是服務於遠處目標的檢測的,目標明確。

Q:比起 BevFormer v2, MV2D 有什麼差別?
A: MV2D 主要是依賴2D anchor 去取對應的特徵對3D 進行了綁定,但是沒有顯式的深度估計,所以對於遠距離物體來說不確定性就會比較大,然後難收斂; BevFormer v2 主要解決的是2D backbone與3D 任務場景之間的domain gap,一般2D 辨識任務上預訓練的backbone 察覺3D 場景的能力存在不足,並沒有探索遠距離任務中的問題。

Q: 時序上能否改進,如 query propagation 再加上 feature propagation?
A: 理論上是可行的,但是實際應用上應該考慮performance-efficiency tradeoff。

Q: 還有哪些需要改進的地方?
A: 在長尾問題和遠距離評測指標上都值得改進。在 Argoverse 2 這樣的 26 類目標上,模型在長尾類別上表現不佳,最終也會降低平均精度,這一點尚未被探索。另一方面,使用統一的指標來評估遠距離和近距離物體可能並不合適,這就強調了對實用的動態評估標準的需求,以適應現實世界的不同場景。

AAAI2024:Far3D - 创新的直接干到150m视觉3D目标检测思路

原文連結:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg

以上是AAAI2024:Far3D - 創新的直接幹到150m視覺3D目標偵測思路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除