請聯絡出處取得本文的轉載授權,本文是由自動駕駛之心公眾號發布的
多模態感測器融合意味著資訊互補、穩定和安全,長期以來都是自動駕駛感知的重要一環。然而資訊利用的不充分、原始資料的雜訊及各個感測器間的錯位(如時間戳記不同步),這些因素都導致融合性能一直受限。本文全面研究了現有多模態自動駕駛感知演算法,感測器包括LiDAR和相機,聚焦於目標偵測和語意分割,分析超過50篇文獻。同傳統融合演算法分類方法不同,本文從融合階段的不同將此領域分類兩大類、四小類。此外,本文分析了目前領域存在的問題,並對未來的研究方向提供參考。
這是因為單模態的感知演算法存在固有的缺陷。舉個例子,一般光達的架設位置是高於相機的,在複雜的現實駕駛場景中,物體在前視攝影機中可能被遮擋,此時利用光達就有可能捕捉缺失的目標。但由於機械結構的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種感光元件單獨使用都可以做的很出色,但從未來的角度出發,LiDAR和相機的資訊互補將會使得自動駕駛在感知層面上更安全。
近期,自動駕駛多模態感知演算法取得了巨大進步。這些進步包括跨模態的特徵表示、更可靠的模態感測器、更複雜、更穩定的多模態融合演算法和技術。然而,只有少數綜述[15, 81]專注於多模態融合的方法論本身,大多數文獻都按照傳統分類規則進行分類,即前融合、深度(特徵)融合和後融合三大類,並主要關注演算法中特徵融合的階段,無論是資料級、特徵級或提議級。這種分類規則有兩個問題:首先,沒有明確定義每個等級的特徵表示;其次,它從對稱的角度處理雷射雷達和相機這兩個分支,進而模糊了LiDAR分支中提級級特徵融合和相機分支中資料級特徵融合的情況。總結來說,傳統分類法雖然直觀,但已經不適用於當前多模態融合演算法的發展,一定程度上阻礙了研究人員從系統的角度進行研究和分析
#
根據雷射雷達與相機資料表示的不同組合階段,本文將強融合細分為:前融合、深度融合、不對稱融合和後融合。如上圖所示可以看出,強融合的每個子模組都高度依賴光達點雲,而不是相機資料。
與傳統的資料級融合定義不同,後者是一種在原始資料層級透過空間對齊和投影直接融合每種模態數據的方法,早期融合在資料層級融合LiDAR 資料和資料層級的相機資料或特徵級。早期融合的例子可以是圖4的模型。 重寫後的內容: 與傳統的資料級融合定義不同,後者是一種透過在原始資料層級上進行空間對齊和投影,直接融合每種模態資料的方法。早期融合是指在資料層級上融合LiDAR資料和相機資料或特徵層級的資料。圖4中的模型是早期融合的一個例子
與傳統分類方法定義的前融合不同,本文定義的前融合是指在原始資料層級透過空間對齊和投影直接融合各個模態資料的方法,前融合在數據級指的是融合光達數據,在數據級或特徵級融合圖像數據,示意圖如下:
在LiDAR分支中,點雲有多種表達方式,例如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點雲等。儘管這些資料在不同主幹網路中具有不同的內在特徵,但除了偽點雲之外[79],大部分的資料都是透過一定的規則處理產生。此外,與特徵空間嵌入相比,LiDAR的這些資料都具有很強的可解釋性,可以直接進行視覺化展示
在影像分支中,嚴格意義上的資料級定義是指RGB或灰度圖像,但是這個定義缺乏普遍性和合理性。因此,本文對前融合階段的影像資料的資料級定義進行了擴展,包括資料級和特徵級資料。值得一提的是,本文將語義分割的預測結果也作為前融合的一種(圖像特徵級),一方面是因為它有助於3D目標檢測,另一方面是因為語義分割的“目標級”特徵與整個任務的最終目標級提議是不同的
#深度融合,也稱特徵級融合,是指在光達分支的特徵級融合多模態數據,但在影像分支的資料集和特徵級進行融合。例如一些方法使用特徵提舉起分別獲取LiDAR點雲和影像的嵌入表示,並透過一系列下游模組融合兩種模態的特徵。然而,與其他強融合不同的是,深度融合有時會以級聯方式融合特徵,這兩者都利用了原始和高級語義資訊。示意圖如下:
#後融合,也可以稱為目標級融合,是指對多個模態的預測結果(或提案)進行整合。例如,一些後融合方法利用LiDAR點雲和影像的輸出進行融合[55]。兩個分支的提案資料格式應與最終結果一致,但品質、數量和精度可能存在差異。後融合可以被看作是一種多模態資訊最佳化最終提案的整合方法,示意圖如下所示:
##強融合的最後一種是不對稱融合,指的是融合一個分支的目標級資訊和其他分支的資料級或特徵級資訊。上述三種融合方法將多模態的各個分支平等對待,不對稱融合則強調至少有一個分支佔據主導地位,其他分支則提供輔助資訊預測最終結果。下圖是不對稱融合的示意圖,在proposal階段,不對稱融合只有一個分支的proposal,而後融合則是所有分支的proposal。 ###
與強融合的區別在於,弱融合方法不會直接從多模態分支中融合數據、特徵或目標,而是以其他形式處理數據。下圖展示了弱融合演算法的基本架構。基於弱融合的方法通常使用基於一定規則的方法來利用一種模態的數據作為監督訊號,以指導另一種模態的交互作用。例如,影像分支中來自CNN的2D proposal可能會導致原始LiDAR點雲中出現截斷,弱融合直接將原始LiDAR 點雲輸入到 LiDAR 主幹中以輸出最終的proposal。
#還有一些工作不屬於上述任何一種範式,因為它們在模型設計的框架中使用了多種融合方式,例如[39]結合了深度融合和後融合,[77]則結合了前融合。這些方法並非融合演算法設計的主流方式,本文統一歸為其他融合方式。
近年來,用於自動駕駛感知任務的多模態融合方法取得了快速進展,從更高級的特徵表示到更複雜的深度學習模型。然而,還有一些懸而未決的問題有待解決,本文總結瞭如下幾個未來可能的改進方向 。
目前的融合模型存在錯位和資訊遺失的問題[13,67,98]。此外,平融合(flat fusion)操作也阻礙了感知任務表現的進一步提升。總結如下:
前視單幀影像是自動駕駛感知任務的典型場景。然而,大多數框架只能利用有限的信息,並未詳細設計輔助任務來促進駕駛場景的理解。總結如下:
現實世界的場景和感測器高度會影響域偏差和解析度。這些不足會妨礙自動駕駛深度學習模型的大規模訓練和即時操作
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
原文連結:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
以上是深入探討多模態融合感知演算法在自動駕駛的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!