首頁  >  文章  >  科技週邊  >  DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

PHPz
PHPz轉載
2024-03-21 17:21:09405瀏覽

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確地偵測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的複雜性。

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

論文指出,現有的方法如HeightFormer和FB-BEV嘗試結合這兩種VT策略,但這些方法通常採用兩階段策略,由於雙VT的特徵轉換不同,受到初始特徵性能的限制,從而阻礙了雙VT之間的無縫融合。此外,這些方法在實現自動駕駛的即時部署方面仍面臨挑戰。

針對這些問題,論文提出了一種統一的特徵轉換方法,適用於2D到3D和3D到2D的視覺轉換,透過三種機率測量來評估3D和2D特徵之間的對應關係:BEV機率、投影機率和影像機率。此新方法旨在減輕BEV網格中空白區域對特徵建構的影響,區分多個對應關係,並在特徵轉換過程中排除背景特徵。

透過應用這種統一的特徵轉換,論文探討了使用卷積神經網路(CNN)進行3D到2D視覺轉換的新方法,並引入了稱為HeightTrans的方法。除了展示了其卓越的性能外,還展示了透過預計算加速的潛力,使其適用於即時自動駕駛應用。同時,透過整合此特徵轉換,增強了傳統的LSS流程,展現了其對目前偵測器的普適性。

結合HeightTrans和Prob-LSS,論文介紹了DualBEV,這是一種創新的方法,它在一階段內就考慮並融合了來自BEV和透視視圖的對應關係,消除了對初始特徵的依賴。此外,提出了一個強大的BEV特徵融合模組,稱為雙特徵融合(DFF)模組,透過利用通道注意力模組和空間注意力模組,進一步幫助精細化BEV機率預測。 DualBEV遵循「廣泛輸入,嚴格輸出」的原則,透過利用精確的雙視圖機率對應關係來理解和表示場景的機率分佈。

論文的主要貢獻如下:

  1. 揭示了3D到2D和2D到3D视觉转换之间的内在相似性,并提出了一种统一的特征转换方法,能够从BEV和透视视图两个方面准确建立对应关系,显著缩小了双策略之间的差距。
  2. 提出了一种新的基于CNN的3D到2D视觉转换方法HeightTrans,通过概率采样和查找表的预计算,有效且高效地建立精确的3D-2D对应关系。
  3. 引入了DFF用于双视图特征融合,这种融合策略在一阶段内捕获近远区域的信息,从而生成全面的BEV特征。
  4. 他们的高效框架DualBEV在nuScenes测试集上实现了55.2%的mAP和63.4%的NDS,即使没有使用Transformer,也突显了捕获精确双视图对应关系对视图转换的重要性。

通过这些创新,论文提出了一种新的策略,以克服现有方法的限制,在自动驾驶等实时应用场景中实现更高效、更准确的物体检测。

详解DualBEV

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

这篇论文提出的方法旨在通过统一的特征转换框架,DualBEV,解决自动驾驶中的BEV(鸟瞰图)对象检测问题。以下是方法部分的主要内容,概括了其不同子部分和关键创新。

DualBEV概述

DualBEV的处理流程从多个相机获取的图像特征  开始,接着使用SceneNet生成实例mask  和深度图 . 接下来,通过HeightTrans模块和Prob-LSS流水线提取和转换特征,最后这些特征被融合并用于预测BEV空间的概率分布 ,以得到最终的BEV特征 ,用于后续任务。

HeightTrans

HeightTrans是基于3D到2D视觉转换的原理,通过选择3D位置并投影到图像空间,以及评估这些3D-2D对应关系。这个方法首先在预定义的BEV图中采样一组3D点,然后仔细考虑和过滤这些对应关系以生成BEV特征。HeightTrans通过采用多分辨率采样策略和概率采样方法来增强对小物体的关注,并解决背景像素带来的误导问题。此外,通过引入BEV概率  来解决空白BEV网格的问题。HeightTrans模块是论文提出的关键技术之一,专注于通过3D到2D视觉转换(VT)来处理和转换特征。它基于从预定义的鸟瞰图(BEV)地图中选择3D位置,并将这些位置投影到图像空间,从而评估3D和2D之间的对应关系。以下是HeightTrans工作原理的详细介绍:

BEV Height

HeightTrans方法在处理高度时采用了一种多分辨率采样策略,覆盖整个高度范围(从-5米到3米),在兴趣区域(ROI,定义为-2米到2米内)的分辨率为0.5米,在此范围外的分辨率为1.0米。这种策略有助于增加对小物体的关注,这些小物体可能会在更粗糙的分辨率采样中被遗漏。

Prob-Sampling

HeightTrans在概率采样方面采用了以下步骤:

  1. 定義3D取樣點:預先定義一組3D取樣點 ,每個點由其在3D空間中的位置  定義。
  2. 投影到2D空間:利用相機的外參矩陣  與內參矩陣 ,3D點投影到2D影像空間中的點 ,其中  表示點的深度。
  3. 特徵取樣:使用雙線性網格取樣器  在投影位置  處取樣影像特徵 
  4. 利用實例mask:為了避免投影位置落在背景像素上,利用SceneNet產生的實例mask  來代表影像機率 #,並將其應用於影像特徵,以減少誤導性資訊的影響:
  5. 處理多重對應關係:使用三線性網格取樣器  在深度圖 中評估多個3D點映射到同一2D位置的情況,即投影機率 
  6. 引入BEV機率:為了解決BEV網格中空白格不提供有用資訊的問題,引入BEV機率  來表示BEV網格的佔用機率,其中  是BEV空間中的位置:

#加速

透過預先計算3D點在BEV空間中的索引,並在推理期間固定影像特徵索引和深度圖索引,HeightTrans能夠加速視覺轉換過程。最終的HeightTrans特徵透過對每個BEV網格中預先定義

Prob-LSS

Prob-LSS擴展了傳統的LSS(Lift, Splat, Shoot)管道,透過預測每個像素的深度機率來促進其投影到BEV空間。此方法進一步整合了BEV機率,透過以下公式建構LSS特徵:

這樣做可以更好地處理深度估計中的不確定性,從而減少BEV空間中的冗餘資訊。

雙特徵融合(Dual Feature Fusion, DFF)

#DFF模組旨在融合HeightTrans和Prob-LSS的特徵,並有效預測BEV機率。透過結合通道注意力模組和空間注意力增強的ProbNet,DFF能夠優化特徵選擇和BEV機率預測,以增強對近處和遠處物件的表徵。這種融合策略考慮了來自兩個流的特徵的互補性,同時也透過計算局部和全局注意力來增強BEV機率的準確性。

總之,這篇論文提出的DualBEV框架透過結合HeightTrans和Prob-LSS,以及創新的雙特徵融合模組,實現了對3D和2D特徵之間對應關係的高效評估和轉換。這不僅橋接了2D到3D和3D到2D轉換策略之間的差距,而且還透過預計算和機率測量加速了特徵轉換過程,使其適合即時自動駕駛應用。

此方法的關鍵在於對不同視角下的特徵進行精確對應和高效融合,從而在BEV物件檢測中實現了出色的性能。

實驗

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

DualBEV方法的變體(帶有星號的DualBEV* )在單一幀輸入條件下表現最佳,達到了35.2%的mAP和42.5%的NDS,這表明它在準確性和綜合性能上都超過了其他方法。特別是在mAOE上,DualBEV*實現了0.542的分數,這是單幀方法中最好的。然而,它在mATE和mASE上的表現並沒有明顯優於其他方法。

当输入帧数增加到两帧时,DualBEV的表现进一步提升,mAP达到38.0%,NDS达到50.4%,这是所有列出方法中最高的NDS,表明DualBEV在处理更复杂的输入时能够更全面地理解场景。在多帧方法中,它在mATE、mASE、和mAAE上也展现了较强的性能,特别是在mAOE上有明显的改善,显示出其在估计物体方向上的优势。

从这些结果可以分析得出,DualBEV及其变体在多个重要的性能指标上均有出色表现,尤其是在多帧设置下,表明其对BEV对象检测任务具有较好的准确性和鲁棒性。此外,这些结果还强调了使用多帧数据的重要性,可以提高模型的整体性能和估计准确性。

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

下面是对各个消融实验结果的分析:

  • 添加ProbNet、HeightTrans、CAF(Channel Attention Fusion)、SAE(Spatial Attention Enhanced)等组件逐步提升了Baseline的性能。
  • HeightTrans的加入显著提高了mAP和NDS,这表明在视觉转换中引入高度信息是有效的。
  • CAF进一步提升了mAP,但略微增加了延迟。
  • SAE的引入提升了NDS到最高的42.5%,同时对mAP也有提升,说明空间注意力机制有效地增强了模型性能。
  • 不同的概率措施(投影概率 ,图像概率 ,BEV概率 )逐步加入对比试验。
  • 当全部三种概率同时使用时,模型达到了最高的mAP和NDS,这表明这些概率的结合对于模型性能至关重要。
  • Prob-Sampling在相似的延迟下(0.32ms),比其他的VT操作具有更高的NDS(39.0%),这强调了概率采样在性能上的优越性。
  • 多分辨率(MR)采样策略相对于均匀采样策略,在使用相同数量的采样点时能达到相似或更好的性能。
  • 通过将投影概率、图像概率和BEV概率加入到LSS流程,Prob-LSS的表现超过了其他的LSS变体,提高了mAP和NDS,显示了结合这些概率的有效性。
  • 与多阶段的精细化(Refine)策略相比,单阶段的添加(Add)策略和DFF模块都能取得更高的NDS,而DFF在mAP上也有轻微的提升,这表明DFF作为一种单阶段的融合策略,在效率和性能上都是有益的。

消融实验表明了HeightTrans、概率措施、Prob-Sampling和DFF等组件及策略对提高模型性能至关重要。此外,多分辨率采样策略在高度信息上的使用也证明了其有效性。这些发现支持了作者在方法部分提出的每一项技术都对模型性能有正面贡献的论点。

讨论

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

这篇论文通过一系列消融实验展示了其方法的性能。从实验结果可以看出,论文提出的DualBEV框架和它的各个组成部分均对提高鸟瞰图(BEV)对象检测的准确性具有积极影响。

论文的方法通过将ProbNet、HeightTrans、CAF(Channel Attention Fusion)、和SAE(Spatial Attention Enhanced)模块逐步引入到基线模型中,显示出在mAP和NDS两个指标上均有显著提升,这证明了每个组件在整个架构中都发挥了重要作用。尤其是引入SAE后,NDS得分提高到了最高点42.5%,同时延迟只有轻微增加,这表明了该方法在精度和延迟之间取得了良好的平衡。

概率消融实验结果进一步证实了投影概率、图像概率和BEV概率在提高检测性能方面的重要性。当这些概率被逐一引入时,系统的mAP和NDS得分稳步提升,这表明了将这些概率措施集成到BEV对象检测任务中的重要性。

在视觉转换(VT)操作的比较中,论文提出的Prob-Sampling方法与其他操作如SCAda和Bilinear-Sampling相比,显示出较低的延迟和更高的NDS得分,这强调了其在效率和性能上的优势。此外,对于不同的高度采样策略,采用多分辨率(MR)策略而不是统一采样能够进一步提高NDS得分,这表明了考虑场景中不同高度的信息对于提升检测性能的重要性。

此外,对于不同的特征融合策略,论文展示了DFF方法在简化模型的同时,依然能够维持高NDS得分的能力,这意味着在一阶段处理流程中融合双流特征是有效的。

然而,尽管论文提出的方法在多个方面表现出色,每项改进也都会导致系统复杂度和计算成本的增加。例如,每引入一个新的组件(如ProbNet、HeightTrans等),系统的延迟都会有所增加,尽管延迟的增加是微小的,但在实时或低延迟要求的应用中,这可能成为考虑因素。此外,虽然概率措施有助于性能提升,但也需要额外的计算资源来估计这些概率,可能导致更高的资源消耗。

论文提出的DualBEV方法在提高BEV对象检测的精度和综合性能方面取得了显著的成果,特别是在将深度学习的最新进展与视觉转换技术相结合的方面。但这些进步是以轻微增加计算延迟和资源消耗为代价的,实际应用时需要根据具体情况权衡这些因素。

结论

该方法在BEV对象检测任务中表现出色,显著提高了准确性和综合性能。通过引入概率采样、高度转换、注意力机制和空间关注增强网络,DualBEV成功地提升了多个关键性能指标,特别是在鸟瞰图(BEV)的精度和场景理解方面。实验结果表明,论文的方法在处理复杂场景和不同视角数据时尤为有效,这对于自动驾驶和其他实时监控应用至关重要。

以上是DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除