首頁 >科技週邊 >人工智慧 >深入探討多模態融合感知演算法在自動駕駛的應用

深入探討多模態融合感知演算法在自動駕駛的應用

王林
王林轉載
2023-11-22 11:29:16969瀏覽

請聯絡出處取得本文的轉載授權,本文是由自動駕駛之心公眾號發布的

#1 簡介

多模態感測器融合意味著資訊互補、穩定和安全,長期以來都是自動駕駛感知的重要一環。然而資訊利用的不充分、原始資料的雜訊及各個感測器間的錯位(如時間戳記不同步),這些因素都導致融合性能一直受限。本文全面研究了現有多模態自動駕駛感知演算法,感測器包括LiDAR和相機,聚焦於目標偵測和語意分割,分析超過50篇文獻。同傳統融合演算法分類方法不同,本文從融合階段的不同將此領域分類兩大類、四小類。此外,本文分析了目前領域存在的問題,並對未來的研究方向提供參考。

2 為什麼需要多模態?

這是因為單模態的感知演算法存在固有的缺陷。舉個例子,一般光達的架設位置是高於相機的,在複雜的現實駕駛場景中,物體在前視攝影機中可能被遮擋,此時利用光達就有可能捕捉缺失的目標。但由於機械結構的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種感光元件單獨使用都可以做的很出色,但從未來的角度出發,LiDAR和相機的資訊互補將會使得自動駕駛在感知層面上更安全。

近期,自動駕駛多模態感知演算法取得了巨大進步。這些進步包括跨模態的特徵表示、更可靠的模態感測器、更複雜、更穩定的多模態融合演算法和技術。然而,只有少數綜述[15, 81]專注於多模態融合的方法論本身,大多數文獻都按照傳統分類規則進行分類,即前融合、深度(特徵)融合和後融合三大類,並主要關注演算法中特徵融合的階段,無論是資料級、特徵級或提議級。這種分類規則有兩個問題:首先,沒有明確定義每個等級的特徵表示;其次,它從對稱的角度處理雷射雷達和相機這兩個分支,進而模糊了LiDAR分支中提級級特徵融合和相機分支中資料級特徵融合的情況。總結來說,傳統分類法雖然直觀,但已經不適用於當前多模態融合演算法的發展,一定程度上阻礙了研究人員從系統的角度進行研究和分析

##3 任務和公開比賽

常見的知覺任務包括目標偵測、語意分割、深度補全和預測等。本文重點在於偵測和分割,如障礙物、交通號誌、交通標誌的偵測和車道線、freespace的分割等。自動駕駛感知任務如下圖所示:

深入探討多模態融合感知演算法在自動駕駛的應用

常見的公開資料集主要包括KITTI、Waymo和nuScenes,下圖總結了與自動駕駛感知相關的資料集及其特點

深入探討多模態融合感知演算法在自動駕駛的應用

4 融合方法

#多模態融合離不開資料表達形式,影像分支的資料表示較簡單,一般均指RGB格式或灰階圖,但光達分支對資料格式的依賴度較高,不同的資料格式衍生出完全不同的下游模型設計,總結來說包含三個大方向:基於點、基於體素和基於二維映射的點雲表示。

傳統分類方法將多模態融合分為以下三種:

    前融合(資料級融合)指透過空間對齊直接融合不同模態的原始感測器資料。
  1. 深度融合(特徵級融合)指透過級聯或元素相乘在特徵空間中融合跨模態資料。
  2. 後融合(目標層級融合)指將各模態模型的預測結果進行融合,做出最終決策。
文章使用下圖的分類方式,總體分為強融合和若融合,強融合又可細分為前融合、深度融合、不對稱融合和後融合

深入探討多模態融合感知演算法在自動駕駛的應用

#本文使用KITTI的3D偵測任務與BEV偵測任務橫向比較各個多模態融合演算法的效能,下圖是BEV偵測測試集的結果:

深入探討多模態融合感知演算法在自動駕駛的應用

以下是3D檢測測試集的結果範例圖:

深入探討多模態融合感知演算法在自動駕駛的應用#

5 強融合

深入探討多模態融合感知演算法在自動駕駛的應用

根據雷射雷達與相機資料表示的不同組合階段,本文將強融合細分為:前融合、深度融合、不對稱融合和後融合。如上圖所示可以看出,強融合的每個子模組都高度依賴光達點雲,而不是相機資料。

前融合

與傳統的資料級融合定義不同,後者是一種在原始資料層級透過空間對齊和投影直接融合每種模態數據的方法,早期融合在資料層級融合LiDAR 資料和資料層級的相機資料或特徵級。早期融合的例子可以是圖4的模型。 重寫後的內容: 與傳統的資料級融合定義不同,後者是一種透過在原始資料層級上進行空間對齊和投影,直接融合每種模態資料的方法。早期融合是指在資料層級上融合LiDAR資料和相機資料或特徵層級的資料。圖4中的模型是早期融合的一個例子

與傳統分類方法定義的前融合不同,本文定義的前融合是指在原始資料層級透過空間對齊和投影直接融合各個模態資料的方法,前融合在數據級指的是融合光達數據,在數據級或特徵級融合圖像數據,示意圖如下:

深入探討多模態融合感知演算法在自動駕駛的應用

在LiDAR分支中,點雲有多種表達方式,例如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點雲等。儘管這些資料在不同主幹網路中具有不同的內在特徵,但除了偽點雲之外[79],大部分的資料都是透過一定的規則處理產生。此外,與特徵空間嵌入相比,LiDAR的這些資料都具有很強的可解釋性,可以直接進行視覺化展示

在影像分支中,嚴格意義上的資料級定義是指RGB或灰度圖像,但是這個定義缺乏普遍性和合理性。因此,本文對前融合階段的影像資料的資料級定義進行了擴展,包括資料級和特徵級資料。值得一提的是,本文將語義分割的預測結果也作為前融合的一種(圖像特徵級),一方面是因為它有助於3D目標檢測,另一方面是因為語義分割的“目標級”特徵與整個任務的最終目標級提議是不同的

深度融合

#深度融合,也稱特徵級融合,是指在光達分支的特徵級融合多模態數據,但在影像分支的資料集和特徵級進行融合。例如一些方法使用特徵提舉起分別獲取LiDAR點雲和影像的嵌入表示,並透過一系列下游模組融合兩種模態的特徵。然而,與其他強融合不同的是,深度融合有時會以級聯方式融合特徵,這兩者都利用了原始和高級語義資訊。示意圖如下:

深入探討多模態融合感知演算法在自動駕駛的應用

後融合

#後融合,也可以稱為目標級融合,是指對多個模態的預測結果(或提案)進行整合。例如,一些後融合方法利用LiDAR點雲和影像的輸出進行融合[55]。兩個分支的提案資料格式應與最終結果一致,但品質、數量和精度可能存在差異。後融合可以被看作是一種多模態資訊最佳化最終提案的整合方法,示意圖如下所示:

深入探討多模態融合感知演算法在自動駕駛的應用

不對稱融合

##強融合的最後一種是不對稱融合,指的是融合一個分支的目標級資訊和其他分支的資料級或特徵級資訊。上述三種融合方法將多模態的各個分支平等對待,不對稱融合則強調至少有一個分支佔據主導地位,其他分支則提供輔助資訊預測最終結果。下圖是不對稱融合的示意圖,在proposal階段,不對稱融合只有一個分支的proposal,而後融合則是所有分支的proposal。

深入探討多模態融合感知演算法在自動駕駛的應用

###

6 弱融合

與強融合的區別在於,弱融合方法不會直接從多模態分支中融合數據、特徵或目標,而是以其他形式處理數據。下圖展示了弱融合演算法的基本架構。基於弱融合的方法通常使用基於一定規則的方法來利用一種模態的數據作為監督訊號,以指導另一種模態的交互作用。例如,影像分支中來自CNN的2D proposal可能會導致原始LiDAR點雲中出現截斷,弱融合直接將原始LiDAR 點雲輸入到 LiDAR 主幹中以輸出最終的proposal。

深入探討多模態融合感知演算法在自動駕駛的應用

7 其他方式融合

#還有一些工作不屬於上述任何一種範式,因為它們在模型設計的框架中使用了多種融合方式,例如[39]結合了深度融合和後融合,[77]則結合了前融合。這些方法並非融合演算法設計的主流方式,本文統一歸為其他融合方式。

8 多模態融合的機會

近年來,用於自動駕駛感知任務的多模態融合方法取得了快速進展,從更高級的特徵表示到更複雜的深度學習模型。然而,還有一些懸而未決的問題有待解決,本文總結瞭如下幾個未來可能的改進方向 。

更先進的融合方法

目前的融合模型存在錯位和資訊遺失的問題[13,67,98]。此外,平融合(flat fusion)操作也阻礙了感知任務表現的進一步提升。總結如下:

  1. 錯位和資訊遺失:相機和LiDAR的內外在差異很大,兩種模態的資料需要進行座標對齊。傳統的前融合和深度融合方法利用標定資訊將所有LiDAR點直接投影到相機座標系,反之亦然。然而由於架設位置、感測器噪聲,這種逐像素的對齊是不夠準確的。因此,一些工作利用周圍資訊進行補充以獲取更好的性能。此外,在輸入和特徵空間的轉換過程中,也存在一些其他資訊的遺失。通常,降維操作的投影不可避免地會導致大量資訊遺失,例如將3D LiDAR點雲映射為2D BEV影像中則損失了高度資訊。因此,可以考慮將多模態數據映射到另一種專為融合設計的高維度空間,進而有效的利用原始數據,減少資訊損失。
  2. 更合理的融合操作:目前許多方法使用級聯或元素相乘的方式進行融合。這些簡單的操作可能無法融合分佈差異較大的數據,因此難以擬合兩個模態間的語意紅狗。一些工作試圖使用更複雜的級聯結構來融合資料並提高效能。在未來的研究中,雙線性映射等機制可以融合具有不同特徵的特徵,也是可以考慮的方向。

多源資訊利用

前視單幀影像是自動駕駛感知任務的典型場景。然而,大多數框架只能利用有限的信息,並未詳細設計輔助任務來促進駕駛場景的理解。總結如下:

  1. 採用更多的潛在資訊:現有方法缺乏對個維度和來源的資訊的有效利用。大多數都將精力放在前視圖中的單幀多模態資料上。這就導致其他有意義的數據並未被充分利用,例如語義、空間和場景上下文資訊。有些工作嘗試使用語意分割結果輔助任務,而其他模型則有可能利用CNN主幹的中間層特徵。在自動駕駛場景中,許多具有顯式語義資訊的下游任務可能會極大的提高目標偵測效能,例如車道線、交通燈和交通標誌的偵測。未來的研究可以結合下游任務,共同建構一個完整的城市場景的語意理解框架,來提升感知表現。此外,[63]結合了幀間資訊提升性能。時間序列資訊包含序列化的監控訊號,與單幀方法相比,它可以提供更穩定的結果。因此,未來的工作可以考慮更深入地利用時間、上下文和空間資訊來實現效能突破。
  2. 自監督表徵學習:互相監督的訊號自然存在於從同一個真實世界場景但不同角度取樣的跨模態資料中。然而,由於缺乏對數據的深入理解,目前的方法還無法挖掘各個模態間的相互關係。未來的研究可以集中在如何利用多模態資料進行自我監督學習,包括預訓練、微調或對比學習。透過這些最先進的機制,融合演算法將加深模型對資料更深層的理解,同時取得更好的效能。

感測器固有問題

現實世界的場景和感測器高度會影響域偏差和解析度。這些不足會妨礙自動駕駛深度學習模型的大規模訓練和即時操作

  1. 域偏差:在自動駕駛感知場景中,不同感測器擷取的原始資料伴隨著嚴重的領域相關特徵。不同的攝影機有不同的光學特性,而LiDAR可能會從機械結構到固態結構而有所不同。更重要的是,數據本身會存在域偏差,例如天氣、季節或地理位置,即使它是由相同的感測器捕獲的。這就導致檢測模型的泛化性受到影響,無法有效適應新場景。這類缺陷阻礙了大規模資料集的收集和原始訓練資料的複用性。因此,未來可以專注於尋找一種消除域偏差並自適應整合不同資料來源的方法。
  2. 解析度衝突:不同的感測器通常有不同的解析度。例如,LiDAR的空間密度明顯低於影像的空間密度。無論採用哪種投影方式,都會因為找不到對應關係而導致資訊損失。這可能會導致模型被特定模態的資料所主導,無論是特徵向量的分辨率不同還是原始資訊的不平衡。因此,未來的工作可以探索一種與不同空間解析度感測器相容的新數據表示系統。

9參考

[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

深入探討多模態融合感知演算法在自動駕駛的應用

原文連結:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

以上是深入探討多模態融合感知演算法在自動駕駛的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除