選擇相機還是光達？實現穩健的三維目標檢測的最新綜述-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

選擇相機還是光達？實現穩健的三維目標檢測的最新綜述

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 26, 2024 am 11:18 AM

3d自動駕駛

0. 寫在前面&&個人理解

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

#自動駕駛系統依賴先進的感知、決策和控制技術，透過使用各種感測器（如相機、光達、雷達等）來感知周圍環境，並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等，從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注，並認為是未來交通領域的重要發展領域之一。但是，讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體，包括它們的位置、形狀、大小和類別。這種全面的環境意識有助於自動駕駛系統更了解駕駛環境，並做出更精確的決策。

我們對自動駕駛中的3D物體偵測演算法進行了全面評估，主要考慮了穩健性。評估中確定了三個關鍵因素：環境變化性、感測器雜訊和誤對準。這些因素對於偵測演算法在真實世界多變條件下的效能表現非常重要。

環境變化性： 文章強調偵測演算法需要適應不同的環境條件，例如光照、天氣和季節的變化。
感測器雜訊： 演算法必須有效處理感測器的噪聲，可能包括攝影機的運動模糊等問題。
誤對準： 對於校準錯誤或其他因素引起的誤對準，演算法需要考慮到這些因素，無論是外部的（如不平坦的路面）還是內部的（例如係統時鐘誤對準）。

也深入探討了效能評估的三個關鍵領域：準確性、延遲和穩健性。

準確性：儘管研究通常將準確性作為關鍵性能指標，但在複雜和極端條件下的表現需要更深入的理解，以確保真實世界的可靠性。
延遲： 自動駕駛中的即時能力至關重要。檢測方法的延遲影響系統及時決策的能力，特別是在緊急情況下。
穩健性： 呼籲對系統在不同條件下的穩定性進行更全面的評估，因為許多目前的評估可能沒有完全考慮到真實世界場景的多樣性。

論文指出了多模態3D檢測方法在安全感知方面的顯著優勢，透過融合不同感測器的數據，提供了更豐富、多樣化的感知能力，進而提高了自動駕駛系統的安全性。

1. 資料集

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

#上述簡要介紹了用於自動駕駛系統中的3D物件偵測資料集，主要關注評估不同感測器模式的優勢和局限性，以及公共資料集的特徵。

首先，表格中展示了三種類型的感測器：相機、點雲和多模態（相機和雷射雷達）。對於每種類型，列出了它們的硬體成本、優點和限制。相機數據的優點在於提供豐富的顏色和紋理訊息，但它的局限性是缺乏深度資訊且易受光線和天氣影響。光達則能提供準確的深度信息，但成本高且沒有顏色資訊。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

接下來，還有一些其他公共資料集可用於自動駕駛中的3D物件偵測。這些資料集包括KITTI、nuScenes和Waymo等。這些數據集的詳細資訊如下： - KITTI資料集包含了多個年份發布的數據，使用了不同類型的感測器。它提供了大量的幀數和註釋數量，以及各種場景的多樣性，包括場景數量和類別，以及不同的場景類型，如白天、晴天、夜晚和雨天等。 - nuScenes資料集也是一個重要的資料集，它同樣包含了多個年份發布的資料。該資料集使用了多種感測器，並提供了大量的幀數和註釋數量。它涵蓋了各種場景，包括不同的場景數量和類別，以及各種場景類型。 - Waymo資料集是另一個用於自動駕駛的資料集，同樣具有多個年份的資料。此資料集使用了不同類型的感測器，並提供了豐富的幀數和註釋數量。它涵蓋了各種場

此外，也提到了關於「乾淨」自動駕駛資料集的研究，並強調了在雜訊場景下評估模型穩健性的重要性。一些研究關注在惡劣條件下的相機單模態方法，而其他的多模態資料集則專注於雜訊問題。例如，GROUNDED數據集關注在不同天氣條件下地面穿透雷達的定位，而ApolloScape開放數據集包括了雷射雷達、相機和GPS數據，涵蓋了多種天氣和光照條件。

由於在真實世界中收集大規模雜訊資料的成本過高，許多研究轉向使用合成資料集。例如，ImageNet-C是在影像分類模型中對抗常見擾動的基準研究。這一研究方向隨後擴展到為自動駕駛中的3D物體檢測量身定制的穩健性資料集。

2. 基於視覺的3D目標偵測

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

#2.1 Monocular 3D object detection

在這部分內容中，討論了單目3D物體檢測的概念以及三種主要的方法：基於先驗的單目3D物體檢測、僅相機的單目3D物體檢測和深度輔助的單目3D物體檢測。

Prior-guided monocular 3D object detection

這種方法利用隱藏在影像中的物體形狀和場景幾何學的先驗知識來解決單目3D物體檢測的挑戰。透過引入預先訓練的子網路或輔助任務，先驗知識可以提供額外資訊或限制來幫助精確定位3D物體，增強偵測的精確度和穩健性。常見的先驗知識包括物體形狀、幾何一致性、時間約束和分割資訊。例如，Mono3D演算法首先假設3D物體位於固定的地面平面上，然後使用物體的先驗3D形狀來在3D空間中重建邊界框。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

Camera-only monocular 3D object detection

這種方法僅使用單一相機捕獲的影像來偵測和定位3D物體。它採用卷積神經網路（CNN）直接從影像中回歸3D邊界框參數，從而估計物體在三維空間中的尺寸和姿態。這種直接迴歸方法可以以端到端的方式進行訓練，促進了3D物體的整體學習和推論。例如，Smoke演算法摒棄了2D邊界框的迴歸，透過結合單一關鍵點的估計值和3D變數的迴歸來預測每個偵測目標的3D框。

Depth-assisted monocular 3D object detection

深度估計在深度輔助的單目3D物件偵測中扮演關鍵角色。為了實現更準確的單目檢測結果，許多研究利用預先訓練的輔助深度估計網路。這個過程首先透過使用預先訓練的深度估計器（如MonoDepth）將單眼影像轉換為深度影像。然後，採用兩種主要方法來處理深度影像和單眼影像。例如，Pseudo-LiDAR偵測器使用預先訓練的深度估計網路產生Pseudo-LiDAR表示，但由於影像到LiDAR產生的錯誤，Pseudo-LiDAR與基於LiDAR的偵測器之間存在著巨大的效能差距。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

透過這些方法的探索和應用，單目3D物件偵測在電腦視覺和智慧型系統領域取得了顯著進展，為這些領域帶來了突破和機會。

2.2 Stereo-based 3D object detection

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

在這部分內容中，討論了基於立體視覺的3D物件偵測技術。立體視覺3D物件偵測利用一對立體影像來辨識和定位3D物體。透過利用立體攝影機捕獲的雙重視角，這些方法在透過立體匹配和校準獲取高精度深度資訊方面表現出色，這是它們與單眼攝影機設定不同的特點。儘管存在這些優勢，與基於雷射雷達的方法相比，立體視覺方法仍存在相當大的性能差距。此外，從立體影像中進行3D物件偵測的領域相對較少被探索，僅有限的研究工作致力於這一領域。

2D-detection based methods：傳統的2D物件偵測框架可以修改以解決立體偵測問題。例如，Stereo R-CNN使用基於影像的2D偵測器來預測2D提議，為對應的左右影像產生左右感興趣區域（RoIs）。隨後，在第二階段，它直接估計基於先前產生的RoIs的3D物體參數。這種範式被後續的工作廣泛採用。
Pseudo-LiDAR based methods：從立體影像預測的視差圖可以轉換為深度圖，進一步轉換為偽雷射雷達點。因此，類似於單目偵測方法，偽雷射雷達表示也可以用於基於立體視覺的3D物體偵測方法。這些方法旨在增強立體匹配中的視差估計，以實現更準確的深度預測。例如，Wang等人是引入偽雷射雷達表示的先驅。這種表示法是由具有深度圖的圖像產生的，要求模型執行深度估計任務以協助檢測。隨後的工作遵循了這個範式，並透過引入額外的色彩資訊來增強偽點雲、輔助任務（如實例分割、前景和背景分割、領域適應）和座標變換方案進行了最佳化。值得注意的是，Ma等人提出的PatchNet挑戰了利用偽雷射雷達表示進行單目3D物件偵測的傳統觀念。透過為每個像素編碼3D座標，PatchNet可以在沒有偽雷射雷達表示的情況下獲得可比較的單目偵測結果。這項觀察結果表明，偽雷射雷達表示的力量來自於座標變換，而不是點雲表示本身。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

2.3 Multi-view 3D object detection

最近，多視圖3D物件偵測在精確度和穩健性方面相較於前述的單目和立體視覺3D物體偵測方法表現出了優越性。與基於雷射雷達的3D物體偵測不同，最新的全景鳥瞰視圖（BEV）方法消除了對高精度地圖的需求，將偵測從2D提升到3D。這項進展帶來了多視角3D物體偵測的重大發展。在多相機3D物件偵測中，關鍵挑戰在於識別不同影像中的相同物體並從多重視角輸入中聚合物體特徵。目前的方法涉及將多視角統一映射到鳥瞰視圖（BEV）空間，這是一種常見的做法。

Depth-based Multi-view methods:

#從2D到BEV空間的直接轉換構成了一個重大挑戰。 LSS是第一個提出基於深度的方法的，它利用3D空間作為中介。這種方法首先預測2D特徵的網格深度分佈，然後將這些特徵提升到體素空間。這種方法為更有效地實現從2D到BEV空間的轉換提供了希望。繼LSS之後，CaDDN採用了類似的深度表示方法。透過將體素空間特徵壓縮到BEV空間，它執行最終的3D檢測。值得注意的是，CaDDN並不是多視角3D物體偵測的一部分，而是單視角3D物體偵測，它對隨後的深度研究產生了影響。 LSS和CaDDN的主要區別在於CaDDN使用實際的地面真實深度值來監督其分類深度分佈的預測，從而創建了一個能夠更準確地從2D空間提取3D資訊的出色深度網路。

Query-based Multi-view methods

在Transformer技術的影響下，基於query的多視角方法從3D空間檢索2D空間特徵。 DETR3D引入了3D物體query來解決多視角特徵的聚合問題。它透過從不同視角剪輯影像特徵，並使用學習到的3D參考點將它們投影到2D空間，從而在鳥瞰視圖（BEV）空間獲得影像特徵。與基於深度的多視角方法不同，基於query的多視角方法透過使用反向query技術來獲得稀疏BEV特徵，從根本上影響了後續基於query的發展。然而，由於與顯式3D參考點相關的潛在不準確性，PETR採用了隱式位置編碼方法來建構BEV空間，影響了後續的工作。

2.4 Analysis: Accuracy, Latency, Robustness

目前，基於鳥瞰視圖（BEV）感知的3D物體偵測解決方案正在迅速發展。儘管存在許多綜述文章，但對這一領域的全面回顧仍然不足。上海AI實驗室和商湯研究院提供了BEV解決方案技術路線圖的深入回顧。然而，與現有的綜述不同，我們考慮了自動駕駛安全感知等關鍵面向。在分析了基於相機解決方案的技術路線圖和當前發展狀態之後，我們打算基於`準確性、延遲、穩健性'的基本原則進行討論。我們將整合安全感知的視角，以指導自動駕駛中安全感知的實際實施。

准确度：大多数研究文章和综述中都非常关注准确性，这确实非常重要。虽然准确性可以通过AP（平均精度）来反映，但仅考虑AP可能无法提供全面的视角，因为不同的方法由于不同的范式可能表现出显著的差异。如图所示，我们选择了10种代表性方法进行比较，结果表明单目3D物体检测与立体视觉3D物体检测之间存在显著的度量差异。目前的情况表明，单目3D物体检测的准确性远低于立体视觉3D物体检测。立体视觉3D物体检测利用从同一场景的两个不同视角捕获的图像来获取深度信息。相机之间的基线越大，捕获的深度信息范围越广。随着时间的推移，多视角（鸟瞰视图感知）3D物体检测逐渐取代了单目方法，显著提高了mAP。传感器数量的增加对mAP产生了重大影响。
延迟：在自动驾驶领域，延迟至关重要。它指的是系统对输入信号做出反应所需的时间，包括从传感器数据采集到系统决策制定和执行动作的整个过程。在自动驾驶中，对延迟的要求非常严格，因为任何形式的延迟都可能导致严重的后果。延迟在自动驾驶中的重要性体现在以下几个方面：实时响应性、安全性、用户体验、互动性和紧急响应。在3D物体检测领域，延迟（每秒帧数，FPS）和准确性是评估算法性能的关键指标。如图所示，单目和立体视觉3D物体检测的图表显示了KITTI数据集中等难度级别的平均精度（AP）与FPS的关系。对于自动驾驶的实现，3D物体检测算法必须在延迟和准确性之间取得平衡。虽然单目检测速度快，但缺乏精确度；相反，立体和多视角方法准确但速度较慢。未来的研究不仅应保持高精度，还应更加重视提高FPS和降低延迟，以满足自动驾驶中实时响应性和安全性的双重要求。
稳健性：稳健性是自动驾驶安全感知的一个关键因素，代表了一个在综合回顾中以前被忽视的重要话题。在当前精心设计的干净数据集和基准测试中，如KITTI、nuScenes和Waymo，这一方面通常没有得到解决。目前，像RoboBEV、Robo3D这样的研究作品在3D物体检测中纳入了稳健性的考虑，例如传感器缺失等因素。它们采用了一种方法论，包括在与3D物体检测相关的数据集中引入干扰，以评估稳健性。这包括引入各种类型的噪声，如天气条件变化、传感器故障、运动干扰和与物体相关的扰动，旨在揭示不同噪声源对模型的不同影响。通常，大多数研究稳健性的论文通过向干净数据集的验证集（如KITTI、nuScenes和Waymo）引入噪声进行评估。另外，我们强调了参考文献中的发现，其中强调了KITTI-C和nuScenes-C作为相机仅3D物体检测方法的例子。表格提供了总体比较，显示总体上，相机仅方法的稳健性低于激光雷达仅和多模型融合方法。它们非常容易受到各种类型的噪声的影响。在KITTI-C中，三个代表性的作品——SMOKE、PGD和ImVoxelNet——显示出一致较低的整体性能和对噪声的减少稳健性。在nuScenes-C中，值得注意的方法如DETR3D和BEVFormer与FCOS3D和PGD相比表现出更大的稳健性，表明随着传感器数量的增加，整体稳健性提高。总之，未来的相机仅方法需要考虑不仅是成本因素和准确性指标（mAP、NDS等），还有与安全感知和稳健性相关的因素。我们的分析旨在为未来自动驾驶系统的安全提供有价值的见解。

3. 基于Lidar的3D目标检测

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

基于体素的3D物体检测方法提出了将稀疏点云分割并分配到规则体素中，从而形成密集的数据表示，这个过程称为体素化。与基于视图的方法相比，基于体素的方法利用空间卷积有效感知3D空间信息，实现更高的检测精度，这对自动驾驶中的安全感知至关重要。然而，这些方法仍面临以下挑战：

高計算複雜度：與基於相機的方法相比，基於體素的方法需要大量的記憶體和計算資源，因為用於表示3D空間的體素數量龐大。
空間資訊遺失：由於體素的離散化特性，在體素化過程中細節和形狀資訊可能會遺失或模糊，同時體素有限的解析度使得難以準確檢測小物體。
尺度和密度不一致性：基於體素的方法通常需要在不同尺度和密度的體素網格上進行檢測，但由於不同場景中目標的尺度和密度變化很大，選擇合適的尺度和密度來適應不同目標成為挑戰。

為了克服這些挑戰，需要解決資料表示的限制、提高網路特徵能力和目標定位精度，並加強演算法對複雜場景的理解。儘管最佳化策略各不相同，但通常都旨在從資料表示和模型結構方面進行最佳化。

3.1 Voxel-based 3D object detection

得益於PC在深度學習中的繁榮，基於點的三維物件偵測繼承了其許多框架，並提出在不進行預處理的情況下直接從原始點偵測三維物件。與voxel-based方法相比，原始點雲保留了最大量的原始信息，這有利於細粒度的特徵獲取，result high accuracy。同時，PointNet的一系列工作自然為基於點的方法提供了強大的基礎。基於點的3D物件偵測器有兩個基本組成部分:點雲採樣和特徵學習%截至目前，Point-based方法的性能仍被兩個因素所影響:上下文點的數量和特徵學習中採用的上下文半徑。 e.g.增加上下文點的數量可以獲得更細緻的3D信息，但會顯著增加模型的推理時間。類似地，縮小上下文半徑可以獲得相同地效果。因此，為這兩個因素選擇合適的值，可以使模型在精確度和速度之間達到一個平衡。此外，由於需要對點雲中每一個點進行運算，因此點雲採樣過程是限制point-based方法即時運行的主要因素。具體來說，為解決上述問題，現有的方法大多圍繞基於點的3D物件偵測器的兩個基本組成部分進行最佳化：1) Point Sampling 2) feature learning

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

3.2 Point-based 3D object detection

#基於點的3D物體偵測方法繼承了許多深度學習框架，並提出直接從原始點雲中偵測3D物體，而不進行預處理。與基於體素的方法相比，原始點雲最大限度地保留了原始訊息，有利於細粒度特徵的獲取，從而實現高精度。同時，PointNet系列工作為基於點的方法提供了強大的基礎。然而，到目前為止，基於點的方法的性能仍受兩個因素的影響：上下文點的數量和特徵學習中使用的上下文半徑。例如，增加上下文點的數量可以獲得更細緻的3D訊息，但會顯著增加模型的推理時間。類似地，縮小上下文半徑可以達到相同的效果。因此，為這兩個因素選擇適當的值可以使模型在精度和速度之間實現平衡。此外，由於需要對點雲中的每個點進行運算，因此點雲採樣過程是限制基於點方法即時運行的主要因素。為解決這些問題，現有方法主要圍繞基於點的3D物體偵測器的兩個基本組成部分進行最佳化：1) 點雲採樣；2) 特徵學習。

最遠點採樣（FPS）源自PointNet ，是一種在基於點的方法中廣泛使用的點雲採樣方法。它的目標是從原始點雲中選擇一組具有代表性的點，使它們之間的距離最大化，以最好地覆蓋整個點雲的空間分佈。 PointRCNN是基於點的方法中的開創性的兩階段檢測器，使用PointNet 作為骨幹網路。在第一階段，它以自下而上的方式從點雲中產生3D提議。在第二階段，透過結合語意特徵和局部空間特徵來精煉提議。然而，現有基於FPS的方法仍面臨一些問題：1) 與檢測無關的點同樣參與採樣過程，帶來額外的計算負擔；2) 點在物體的不同部分分佈不均勻，導致次優的採樣策略。為了解決這些問題，後續工作採用了類似FPS的設計範式，並進行了改進，例如，透過分割引導的背景點過濾、隨機採樣、特徵空間採樣、基於體素的採樣和基於光線分組的採樣。

基於點的3D物件偵測方法的特徵學習階段旨在從稀疏點雲資料中提取具有判別性的特徵表示。在特徵學習階段使用的神經網路應具備以下特性：1) 不變性，點雲骨幹網路應對輸入點雲的排列順序不敏感；2) 具有局部感知能力，能夠對局部區域進行感知和建模，提取局部特徵；3) 具有整合情境資訊的能力，能夠從全局和局部的上下文資訊中提取特徵。基於上述特性，大量的偵測器被設計用於處理原始點雲。大多數方法可以根據所使用的核心算子分為：1) 基於PointNet的方法；2) 基於圖神經網路的方法；3) 基於Transformer的方法。

基於PointNet的方法

基於PointNet的方法主要依賴集合抽象來對原始點進行降採樣，聚合局部信息，並整合上下文信息，同時保持原始點的對稱不變性。 Point-RCNN是基於點的方法中的第一個兩階段工作，取得了出色的性能，但仍面臨高計算成本的問題。後續工作透過在偵測過程中引入額外的語意分割任務來過濾掉對偵測貢獻最小的背景點，解決了這個問題。

基於圖神經網路的方法

圖神經網路（GNN）具有自適應結構、動態鄰域、構建局部和全局上下文關係的能力以及對不規則採樣的穩健性。 Point-GNN是一項開創性的工作，設計了一個單階段圖神經網絡，透過自動註冊機制、合併和評分操作來預測對象的類別和形狀，展示了使用圖神經網絡作為3D物體檢測新方法的潛力。

基於Transformer的方法

近年來，Transformer（Transformer）在點雲分析中得到了探索，並在許多任務上表現出色。例如，Pointformer引入了局部和全局注意模組來處理3D點雲，局部Transformer模組用於對局部區域中的點之間的交互進行建模，而全局Transformer旨在學習場景級別的上下文感知表示。 Group-free直接利用點雲中的所有點來計算每個物件候選的特徵，其中每個點的貢獻由自動學習的注意模組決定。這些方法展示了基於Transformer的方法在處理非結構化和無序的原始點雲方面的潛力。

3.3 Point-Voxel based 3D object detection

點雲基礎的3D物件偵測方法提供高解析度並保留了原始資料的空間結構，但它們在處理稀疏資料時面臨高計算複雜性和低效率。相較之下，基於體素的方法提供了結構化的數據表示，提高了計算效率，並促進了傳統卷積神經網路技術的應用。然而，由於離散化過程，它們通常會失去細微的空間細節。為了解決這些問題，開發了點-體素（PV）基礎的方法。點-體素方法旨在利用基於點的方法的細粒度資訊捕獲能力和基於體素的方法的計算效率。透過整合這些方法，點-體素基礎的方法能夠更詳細地處理點雲數據，捕捉全局結構和微觀幾何細節。這對於自動駕駛中的安全感知至關重要，因為自動駕駛系統的決策精確度取決於高精確度的偵測結果。

點-體素方法的關鍵目標是透過點到體素或體素到點的轉換，實現體素和點之間的特徵互動。許多工作已經探索了在骨幹網路中利用點-體素特徵融合的想法。這些方法可分為兩類：1) 早期融合；2) 後期融合。

a) 早期融合：有些方法已經探討了使用新的捲積運算子來融合體素和點特徵，PVCNN可能是這方向的首個工作。在這種方法中，基於體素的分支首先將點轉換為低解析度的體素網格，並透過卷積聚合鄰近體素特徵。然後，透過稱為去體素化的過程，將體素級特徵轉換回點級特徵，並與基於點的分支獲得的特徵融合。基於點的分支為每個單獨的點提取特徵。由於它不聚合鄰近信息，該方法可以以更高的速度運行。接著，SPVCNN在PVCNN的基礎上擴展到物體偵測領域。其他方法則試圖從不同的角度進行改進，如輔助任務或多尺度特徵融合。

b) 後期融合：這一系列方法主要採用兩階段偵測框架。首先，使用基於體素的方法產生初步的物體提議。接著，利用點級特徵對偵測框進行精確劃分。 Shi等人提出的PV-RCNN是點-體素基礎方法中的一個里程碑。它使用SECOND作為第一階段檢測器，並提出了具有RoI網格池的第二階段精煉階段，用於關鍵點特徵的融合。後續工作主要遵循上述範式，並專注於第二階段檢測的進展。值得注意的發展包括注意力機制、尺度感知池化和點密度感知精煉模組。

點-體素基礎的方法同時具有基於體素方法的計算效率和基於點方法捕獲細粒度資訊的能力。然而，構建點到體素或體素到點的關係，以及體素和點的特徵融合，會帶來額外的計算開銷。因此，與基於體素的方法相比，點-體素基礎

的方法可以實現更好的檢測精度，但代價是增加了推理時間。

4.多模態3D目標偵測

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

#4.1 Projection-based 3D object detection

基於投影的3D物件偵測方法在特徵融合階段使用投影矩陣來實現點雲和影像特徵的整合。這裡的關鍵是關注在特徵融合期間的投影，而不是融合階段的其他投影過程，如資料增強等。根據融合階段所使用的不同類型的投影，可以將投影基礎的3D物件偵測方法進一步細分為以下幾類：

基於點投影的3D物件偵測：這類方法透過將影像特徵投影到原始點雲上來增強原始點雲資料的表示能力。這些方法的第一步是使用校準矩陣建立雷射雷達點和影像像素之間的強相關性。接下來，透過新增額外資料來增強點雲特徵。這種增強有兩種形式：一種是透過合併分割分數（如PointPainting），另一種是使用來自相關像素的CNN特徵（如MVP）。 PointPainting透過追加分割分數來增強雷射雷達點，但在有效捕捉影像中的顏色和紋理細節方面有其限制。為解決這些問題，開發了更複雜的方法，如FusionPainting。
基於特徵投影的3D物件偵測：與基於點投影的方法不同，這類方法主要關注在點雲特徵提取階段將點雲特徵與影像特徵融合。在這個過程中，透過應用校準矩陣將體素的三維座標系統轉換為影像的像素座標系統，從而有效地融合點雲和影像模態。例如，ContFuse透過連續卷積融合多尺度卷積特徵圖。
自動投影基礎的3D物件偵測：許多研究透過直接投影進行融合，但沒有解決投影誤差問題。一些工作（如AutoAlignV2）透過學習偏移量和鄰域投影等方法來減輕這些誤差。例如，HMFI、GraphAlign和GraphAlign 利用投影校準矩陣的先驗知識進行影像投影，並進行局部圖建模。
基於決策投影的3D物件偵測：這類方法使用投影矩陣來對齊感興趣區域（RoI）或特定結果中的特徵。例如，Graph-RCNN將圖節點投影到攝影機影像中的位置，並透過雙線性內插收集攝影機影像中該像素的特徵向量。 F-PointNet透過2D影像偵測來確定物件的類別和定位，並透過校準的感測器參數和3D空間的轉換矩陣來獲得對應3D空間中的點雲。

這些方法展示瞭如何在多模態3D物體檢測中使用投影技術來實現特徵融合，但它們在處理不同模態間的交互和準確性方面仍存在一定的局限性。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

4.2 Non-Projection-based 3D object detection

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

##非投影式三維物體檢測方法透過不依賴特徵對齊來實現融合，從而產生穩健的特徵表示。它們規避了相機到雷射雷達投影的局限性，這種投影通常會降低相機特徵的語義密度，並影響如Focals Conv和PointPainting等技術的有效性。非投影式方法通常採用交叉注意力機製或建構統一空間來解決直接特徵投影中固有的不對齊問題。這些方法主要分為兩類：（1）基於query學習的方法和（2）基於統一特徵的方法。基於query學習的方法完全避免了融合過程中的對齊需求。相反，基於統一特徵的方法雖然建構了統一的特徵空間，但並沒有完全避免投影；它通常發生在單一模態背景下。例如，BEVFusion利用LSS進行相機到BEV的投影。這個過程發生在融合之前，在特徵不對齊的場景中顯示出相當的穩健性。

基於query學習的三維物件偵測：基於query學習的三維物件偵測方法，如Transfusion、DeepFusion、DeepInteraction、autoalign、CAT-Det、MixedFusion等，避免了特徵融合過程中的投影需求。相反，它們透過交叉注意力機制在進行特徵融合之前實現特徵對齊。點雲特徵通常作為query，而影像特徵作為鍵和值，透過全局特徵query獲得高度穩健的多模態特徵。此外，DeepInteraction引入了多模態交互，其中點雲和圖像特徵作為不同的query來實現更進一步的特徵交互。與僅使用點雲特徵作為query相比，全面整合影像特徵導致了更強韌的多模態特徵的獲得。總的來說，基於query學習的三維物件偵測方法採用基於Transformer的結構進行特徵query以實現特徵對齊。最終，多模態特徵被整合進雷射雷達基礎的流程中，如CenterPoint。
基於統一特徵的三維物體偵測：基於統一特徵的三維物體偵測方法，如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、 sfd、cmt、UVTR、sparsefusion等，通常在特徵融合前透過投影實現異構模態的預融合統一。在BEV融合系列中，使用LSS進行深度估計，前視特徵轉換為BEV特徵，然後融合BEV影像和BEV點雲特徵。另一方面，CMT和UniTR使用Transformer進行點雲和影像的標記化，透過Transformer編碼建構隱式統一空間。 CMT在位置編碼過程中使用投影，但在特徵學習層級完全避免了對投影關係的依賴。 FocalFormer3D、FUTR3D和UVTR利用Transformer的query實作類似DETR3D的方案，透過query建構統一的稀疏BEV特徵空間，減輕了直接投影帶來的不穩定性。

VirConv、MSMDFusion和SFD透過偽點雲建構統一空間，在特徵學習之前發生投影。透過後續特徵學習解決了直接投影引入的問題。總之，基於統一特徵的三維物體偵測方法目前代表了高精度和強魯棒性的解決方案。儘管它們包含投影矩陣，但這種投影不發生在多模態融合之間，因此被視為非投影式三維物體偵測方法。與自動投影式三維物體偵測方法不同，它們不會直接解決投影誤差問題，而是選擇建構統一空間，考慮多模態三維物體偵測的多個維度，從而獲得高度穩健的多模態特徵。

5. 結論

3D物件偵測在自動駕駛感知中扮演著至關重要的角色。近年來，這個領域快速發展，產生了大量的研究論文。基於感測器產生的多樣化資料形式，這些方法主要分為三種類型：基於影像的、基於點雲的和多模態的。這些方法的主要評估指標是高準確性和低延遲。許多綜述總結了這些方法，主要關注`高準確性和低延遲'的核心原則，描述它們的技術軌跡。

然而，在自動駕駛技術從突破轉向實際應用的過程中，現有的綜述沒有將安全感知作為核心關注點，未能涵蓋與安全感知相關的當前技術路徑。例如，最近的多模態融合方法在實驗階段通常會進行穩健性測試，這一方面在目前的綜述中並未得到充分考慮。

因此，重新審視3D物體偵測演算法，以`準確性、延遲和魯棒性'為關鍵面向進行重點關注。我們重新分類先前的綜述，特別強調從安全感知的角度進行重新劃分。希望這項工作能為未來3D物體檢測的研究提供新的見解，超越僅僅探索高準確性的限制。

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！