自動駕駛的基礎任務之一是三維目標偵測,而現在許多方法都是基於多感測器融合的方法實現的。那為什麼要進行多感測器融合?無論是光達和相機融合,又或者是毫米波雷達和相機融合,其最主要的目的就是利用點雲和影像之間的互補聯繫,從而提高目標檢測的準確度。隨著Transformer架構在電腦視覺領域的不斷應用,基於注意力機制的方法提高了多感測器之間融合的精確度。分享的兩篇論文便是基於此架構,提出了新穎的融合方式,以更大程度地利用各自模態的有用信息,實現更好的融合。
雷射雷達和相機是自動駕駛中兩個重要的三維目標偵測感測器,但是在感測器融合上,主要面臨影像條紋條件差導致檢測精度較低的問題。基於點的融合方法是將雷射雷達和相機透過硬關聯(hard association)進行融合,會導致一些問題:a)簡單地拼接點雲和影像特徵,在低品質的影像特徵下,檢測性能會嚴重下降;b)尋找稀疏點雲和影像的硬關聯會浪費高品質的影像特徵,同時難以對齊。 為了解決這個問題,提出了一種軟體關聯(soft association)方法。此方法將雷射雷達和相機作為兩個獨立的偵測器,相互協作,充分利用兩個偵測器的優點。首先,透過傳統的目標偵測器來偵測物件並產生邊緣框(bounding box),然後將邊緣框和點雲匹配,得到每個點與哪個邊緣框相關聯的分數。最後,將邊緣框對應的影像特徵與點雲生成的特徵進行融合。這種方法可以有效地避免影像條紋條件差導致的偵測精度下降,同時
此論文介紹了一種雷射雷達和相機的融合框架TransFusion,來解決兩種感測器之間的關聯問題。主要貢獻如下:
#圖1 TransFusion的整體框架
為了解決上述的圖片條目差以及不同感測器之間的關聯問題,提出了一個基於Transformer的融合框架—TransFusion。此模型依賴標準3D和2D主幹網路來提取LiDAR BEV特徵和影像特徵,然後用兩層Transformer解碼器組成:第一層解碼器利用稀疏的點雲產生初始邊界框;第二層解碼器將第一層的物件查詢與影像特徵查詢相結合,以獲得更好的檢測結果。其中也引入了空間調製注意力機制(SMCA)和影像引導的查詢策略來提高檢測準確性。透過此模型的檢測,可以獲得更好的影像特徵和檢測精度。
如果當一個物體只包含少量的光達點時,那麼只能獲得相同數量的圖像特徵,浪費了高品質的圖像語義資訊。所以論文保留所有的影像特徵,使用Transformer中交叉注意機制和自適應的方式進行特徵融合,使網路能夠自適應地從影像中提取位置和資訊。為了緩解LiDAR BEV特徵和圖像特徵來自不同的感測器的空間不對齊問題,設計了一個空間調製交叉注意模組(SMCA),該模組通過圍繞每個查詢投影的二維中心的二維圓形高斯掩模對交叉注意進行加權。
圖2 映像引導查詢模組
此模組同時利用雷射雷達和影像資訊作為物件查詢,就是透過將影像特徵和光達BEV特徵送入交叉關注機製網絡,投射到BEV平面上,產生融合的BEV特徵。具體如圖2所示,首先沿著高度軸折疊多視圖影像特徵作為交叉注意機製網絡的鍵值,而雷射雷達BEV特徵作為查詢送入註意力網絡,得到融合的BEV特徵,使用進行熱圖預測,並與僅雷射雷達的熱圖Ŝ做平均得到最終的熱圖Ŝ來選擇和初始化目標查詢。這樣的操作使得模型能夠偵測到在雷射雷達點雲中難以偵測到的目標。
#nuScenes資料集是一個用於3D偵測和追蹤的大規模自動駕駛資料集,包含700、150和150個場景,分別用於訓練、驗證和測試。每幀包含一個雷射測距儀點雲和六個覆蓋360度水平視場的校準影像。對於3D檢測,主要指標是平均平均精確度(mAP)和nuScenes檢測分數(NDS)。 mAP是由BEV中心距離而不是3D IoU定義的,最終mAP是透過對10個類別的0.5m, 1m, 2m, 4m的距離閾值進行平均來計算的。 NDS是mAP和其他屬性測量的綜合量測,包括平移、比例、方向、速度和其他方框屬性。 。
Waymo資料集包括798個用於訓練的場景和202個用於驗證的場景。官方的指標是mAP和mAPH (mAP以航向精度加權)。 mAP和mAPH是基於3D IoU閾值定義的,車輛為0.7,行人和騎自行車者為0.5。這些指標進一步分解為兩個難度等級:LEVEL1用於超過5個雷射雷達點的邊界框,LEVEL2用於至少有一個雷射測距儀點的邊界框。與nuScenes的360度攝影機不同,Waymo的攝影機只能覆蓋水平方向的250度左右。
訓練 在nuScenes資料集上,使用DLA34作為影像的2D骨幹網路並凍結其權重,將影像大小設定為448×800;選擇VoxelNet作為雷射雷達的3D骨幹網路。訓練過程分成兩個階段:第一階段僅以雷射雷達資料作為輸入,以第一層解碼器和FFN前饋網路訓練3D骨幹20次,產生初始的3D邊界框預測;第二階段對LiDAR-Camera融合和影像引導查詢初始化模組進行6次訓練。左圖是用於初始邊界框預測的transformer解碼器層架構;右圖是用於LiDAR-Camera融合的transformer解碼器層架構。
圖3 解碼器層設計
首先比較TransFusion和其他SOTA方法在3D目標檢測任務的效能,如下表1所示的是在nuScenes測試集中的結果,可以看到該方法已經達到了當時的最佳性能(mAP為68.9%,NDS為71.7%)。而TransFusion-L是僅使用雷射雷達進行檢測的,其檢測的性能明顯優於先前的單模態檢測方法,甚於超過了一些多模態的方法,這主要是由於新的關聯機制和查詢初始化策略。而在表2中則是展示了在Waymo驗證集上LEVEL 2 mAPH的結果。
表1 與SOTA方法在nuScenes測試中的比較
表2 Waymo驗證集上的LEVEL 2 mAPH
以TransFusion-L為基準,設計不同的融合框架來驗證穩健性。其中三種融合框架分別是逐點拼接融合雷射雷達和影像特徵(CC)、點增強融合策略(PA)和TransFusion。如表3中顯示,將nuScenes資料集劃分成白天和黑夜,TransFusion的方法在夜間將會帶來更大的效能提升。在推理過程中將影像的特徵設為零,以達到在每一幀隨機丟棄若干影像的效果,那麼在表4中可以看到,在推理過程中某些影像不可用時,偵測的效能會顯著下降,其中CC和PA的mAP分別下降23.8%和17.2%,而TransFusion仍維持在61.7%。感測器未校準的情況也會大大影響3D目標偵測的性能,實驗設定從相機到雷射雷達的變換矩陣中隨機添加平移偏移量,如圖4所示,當兩個感測器偏離1m時,TransFusion的mAP僅下降0.49%,而PA和CC的mAP分別下降2.33%和2.85%。
表3 白天和夜間的mAP
表4 在不同數量的影像下的mAP
##圖4 在感測器未對齊情況下的mAP多模態表徵交互編碼器 將編碼器定制為多輸入多輸出(MIMO)結構:將雷射雷達和相機主幹獨立提取的兩個模態特定場景資訊作為輸入,並產生兩個增強的特徵資訊。每一層編碼器都包括:i)多模態特徵交互作用(MMRI);ii)模態內特徵學習;iii)表徵整合。
圖2 多模態表徵交互模組#
#圖3 多模態預測互動模組
資料集和指標同TransFusion的nuScenes資料集部分。
實驗細節 影像的主幹網路是ResNet50,為了節省運算成本,在輸入網路之前將輸入影像重新調整為原始大小的1/2,並在訓練時凍結影像分支的權重。體素大小設定為(0.075m,0.075m,0.2m),偵測範圍設為X軸和Y軸是[-54m,54m],Z軸是[-5m,3m],設計2層編碼器層和5層級聯的解碼器層。另外也設定了兩種線上提交測試模型:測試時間增加(TTA)和模型集成,將兩個設定分別稱為DeepInteraction-large和DeepInteraction-e。其中DeepInteraction-large使用Swin-Tiny作為圖像骨幹網絡,並且將雷射雷達骨幹網路中捲積塊的通道數量增加一倍,體素大小設定為[0.5m,0.5m,0.2m],使用雙向翻轉和旋轉偏航角度[0°,±6.25°,±12.5°]以增加測試時間。 DeepInteraction-e整合了多個DeepInteraction-large模型,輸入的雷射雷達BEV網格尺寸為[0.5m,0.5m]和[1.5m,1.5m]。
依據TransFusion的配置進行資料增強:使用範圍為[-π/4,π/4]的隨機旋轉,隨機縮放係數為[0.9,1.1],標準差為0.5的三軸隨機平移和隨機水平翻轉,也使用CBGS中類平衡重採樣來平衡nuScenes的類別分佈。和TransFusion一樣採用兩階段訓練的方法,以TransFusion-L作為僅雷射雷達訓練的基線。使用單週期學習率策略的Adam優化器,最大學習率1×10−3,權衰減0.01,動量0.85 ~ 0.95,遵循CBGS。光達基線訓練為20輪,光達影像融合為6輪,批量大小為16個,使用8個NVIDIA V100 GPU進行訓練。
#表1 在nuScenes測試集上與最先進方法的比較
如表1所示,DeepInteraction在所有設定下都實現了最先進的效能。而在表2中分別比較了在NVIDIA V100、A6000和A100上測試的推理速度。可以看到,在取得高性能的前提下,仍舊保持著較高的推理速度,驗證了該方法在檢測性能和推理速度之間實現了優越權衡。
表2 推理速度比較
##解碼器的消融實驗
在表3(a)中比較了多模態互動預測解碼器和DETR解碼器層的設計,並且使用了混合設計:使用普通的DETR解碼器層來聚合雷射雷達表示中的特徵,使用多模態交互預測解碼器(MMPI)來聚合影像表示中的特徵(第二行)。 MMPI明顯優於DETR,提高了1.3% mAP和1.0% NDS,具有設計上的組合彈性。表3(c)進一步探討了不同的解碼器層數對於偵測效能的影響,可以發現增加到5層解碼器時效能是不斷提升的。最後也比較了訓練和測試時採用的查詢數的不同組合,在不同的選擇下,性能上穩定的,但以200/300作為訓練/測試的最佳設定。 表3 解碼器的消融實驗表4 編碼器的消融實驗
使用兩種不同的激光雷達骨幹網路:PointPillar和VoxelNet來檢查框架的一般性。對於PointPillars,將體素大小設定為(0.2m, 0.2m),同時保持與DeepInteraction-base相同的其餘設定。由於提出的多模態交互策略,DeepInteraction在使用任何一種骨幹網時都比僅使用lidar基線表現出一致的改進(基於體素的骨幹網提高5.5% mAP,基於支柱的骨幹網提高4.4% mAP )。這反映了DeepInteraction在不同點雲編碼器中的通用性。
表5不同雷射雷達主幹網的評估
在這項工作中,提出了一種新的3D目標偵測方法DeepInteraction,用於探索固有的多模態互補性質。這個關鍵思想是維持兩種特定於模態的表徵,並在它們之間建立表徵學習和預測解碼的相互作用。該策略是專門為解決現有單側融合方法的基本限製而設計的,即由於其輔助源角色處理,圖像表示未充分利用。
以上的兩篇論文都是基於雷射雷達和相機融合的三維目標檢測,從DeepInteraction中也可以看到它是藉鑒了TransFusion的進一步工作。從這兩篇論文中可以總結出多感測器融合的一個方向,就是探究更有效率的動態融合方式,以關注更多不同模態的有效資訊。當然了,這一切建立在兩種模態都有高品質的資訊。多模態融合在未來的自動駕駛、智慧機器人等領域都會有很重要的應用,隨著不同模態擷取的資訊逐漸豐富起來,我們能夠利用到的資訊將會越來越多,那麼如何將這些數據更有效率的運用起來也是一個值得思考的問題。
以上是如何利用transformer有效關聯雷射雷達-毫米波雷達-視覺特徵?的詳細內容。更多資訊請關注PHP中文網其他相關文章!