原文標題:Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird's-Eye View
論文連結:https://arxiv.org/pdf/2309.15465.pdf
作者單位:Opel Automobile GmbH Rheinland -Pfalzische Technische Universitat Kaiserslautern-Landau German Research Center for Artificial Intelligence
##論文想法:
透過利用互補的感測器資訊,毫米波雷達和相機融合系統具有潛力為先進的駕駛員輔助系統和自動駕駛功能提供高度穩健和可靠的感知系統。基於相機的目標偵測的最新進展為毫米波雷達和相機的融合提供了新的可能性,可以利用鳥瞰特徵圖進行融合。本研究提出了一種新穎且靈活的融合網絡,並在兩個資料集(nuScenes 和 View-of-Delft)上評估了其性能。實驗結果表明,雖然相機分支需要大量且多樣化的訓練數據,但毫米波雷達分支從高性能的毫米波雷達中受益更多。透過遷移學習,本研究提高了相機在較小資料集上的表現。研究結果進一步表明,毫米波雷達和相機的融合方法明顯優於僅使用相機或僅使用毫米波雷達的基準方法
網路設計:
最近,3D目標偵測的一個趨勢是將影像的特徵轉換成常見的鳥瞰圖(BEV)表示。這種表示方式提供了一種靈活的融合架構,可以在多個攝影機之間進行融合,也可以使用測距感測器進行融合。在這項工作中,我們擴展了原本用於雷射攝影機融合的BEVFusion方法,用於毫米波雷達攝影機的融合。我們使用選定的毫米波雷達資料集對我們提出的融合方法進行了訓練和評估。在幾個實驗中,我們討論了每個資料集的優缺點。最後,我們應用遷移學習來實現進一步的改進
以下是需要重新編寫的內容:
圖1展示了基於BEVFusion的BEV毫米波雷達-相機融合流程圖。在產生的相機影像中,我們包含了投影毫米波雷達的偵測結果和真實邊界框
本文遵循BEVFusion的融合架構。圖1展示了本文在BEV中進行毫米波雷達-camera融合的網路概況。請注意,融合發生時,camera和毫米波雷達特徵在BEV連接。下面,本文將為每個區塊提供進一步的細節。
需要重寫的內容是:A.相機編碼器和相機到BEV視圖轉換
camera編碼器和視圖變換採用了[15]的思想,它是一種靈活的框架,可以擷取任意camera外部和內部參數的影像BEV特徵。首先,使用tiny-Swin Transformer網路從每個影像中提取特徵。接下來,本文利用[14]的 Lift 和 Splat 步驟將影像的特徵轉換到BEV平面。為此,密集深度預測之後是基於規則的block,其中的特徵被轉換成偽點雲,並進行柵格化並累積到BEV網格中。
雷達柱特徵編碼器
此區塊的目的是將毫米波雷達點雲編碼到與影像BEV特徵相同的網格上的BEV特徵中。為此,本文使用了[16]的 pillar 特徵編碼技術,將點雲光柵化為無限高的體素,即所謂的pillar。
需要重新寫的內容是:C. BEV編碼器
與[5]相似,毫米波雷達和相機的BEV特徵是透過級聯融合來實現的。融合後的特徵由聯合卷積BEV編碼器處理,以便網路能夠考慮空間錯位並利用不同模態之間的協同效應
D. Detection Head
本文使用CenterPoint檢測頭來預測每個類別的目標中心的熱圖。進一步的迴歸頭預測物體的尺寸、旋轉和高度,以及nuScenes的速度和類別屬性。而熱圖則採用高斯焦點損失進行訓練,其餘的檢測頭則採用L1損失進行訓練
實驗結果:
引用:
Stäcker, L., Heidenreich, P., Rambach, J., & Stricker, D. (2023). 《鳥瞰視角下雷達-攝影機融合的跨資料集實驗研究》. ArXiv. /abs/2309.15465
需要重寫的內容是:原文連結;https://mp.weixin.qq.com/ s/5mA5up5a4KJO2PBwUcuIdQ
##
以上是BEV下的Radar-Camera 融合跨資料集實驗研究的詳細內容。更多資訊請關注PHP中文網其他相關文章!