請聯絡出處取得本文的轉載授權,本文是由自動駕駛之心公眾號發布的
#1 簡介
多模態感測器融合意味著資訊互補、穩定和安全,長期以來都是自動駕駛感知的重要一環。然而資訊利用的不充分、原始資料的雜訊及各個感測器間的錯位(如時間戳記不同步),這些因素都導致融合性能一直受限。本文全面研究了現有多模態自動駕駛感知演算法,感測器包括LiDAR和相機,聚焦於目標偵測和語意分割,分析超過50篇文獻。同傳統融合演算法分類方法不同,本文從融合階段的不同將此領域分類兩大類、四小類。此外,本文分析了目前領域存在的問題,並對未來的研究方向提供參考。
2 為什麼需要多模態?
這是因為單模態的感知演算法存在固有的缺陷。舉個例子,一般光達的架設位置是高於相機的,在複雜的現實駕駛場景中,物體在前視攝影機中可能被遮擋,此時利用光達就有可能捕捉缺失的目標。但由於機械結構的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種感光元件單獨使用都可以做的很出色,但從未來的角度出發,LiDAR和相機的資訊互補將會使得自動駕駛在感知層面上更安全。
近期,自動駕駛多模態感知演算法取得了巨大進步。這些進步包括跨模態的特徵表示、更可靠的模態感測器、更複雜、更穩定的多模態融合演算法和技術。然而,只有少數綜述[15, 81]專注於多模態融合的方法論本身,大多數文獻都按照傳統分類規則進行分類,即前融合、深度(特徵)融合和後融合三大類,並主要關注演算法中特徵融合的階段,無論是資料級、特徵級或提議級。這種分類規則有兩個問題:首先,沒有明確定義每個等級的特徵表示;其次,它從對稱的角度處理雷射雷達和相機這兩個分支,進而模糊了LiDAR分支中提級級特徵融合和相機分支中資料級特徵融合的情況。總結來說,傳統分類法雖然直觀,但已經不適用於當前多模態融合演算法的發展,一定程度上阻礙了研究人員從系統的角度進行研究和分析
##3 任務和公開比賽
常見的知覺任務包括目標偵測、語意分割、深度補全和預測等。本文重點在於偵測和分割,如障礙物、交通號誌、交通標誌的偵測和車道線、freespace的分割等。自動駕駛感知任務如下圖所示:4 融合方法
#多模態融合離不開資料表達形式,影像分支的資料表示較簡單,一般均指RGB格式或灰階圖,但光達分支對資料格式的依賴度較高,不同的資料格式衍生出完全不同的下游模型設計,總結來說包含三個大方向:基於點、基於體素和基於二維映射的點雲表示。 傳統分類方法將多模態融合分為以下三種:- 前融合(資料級融合)指透過空間對齊直接融合不同模態的原始感測器資料。
- 深度融合(特徵級融合)指透過級聯或元素相乘在特徵空間中融合跨模態資料。
- 後融合(目標層級融合)指將各模態模型的預測結果進行融合,做出最終決策。
#
5 強融合
根據雷射雷達與相機資料表示的不同組合階段,本文將強融合細分為:前融合、深度融合、不對稱融合和後融合。如上圖所示可以看出,強融合的每個子模組都高度依賴光達點雲,而不是相機資料。
前融合
與傳統的資料級融合定義不同,後者是一種在原始資料層級透過空間對齊和投影直接融合每種模態數據的方法,早期融合在資料層級融合LiDAR 資料和資料層級的相機資料或特徵級。早期融合的例子可以是圖4的模型。 重寫後的內容: 與傳統的資料級融合定義不同,後者是一種透過在原始資料層級上進行空間對齊和投影,直接融合每種模態資料的方法。早期融合是指在資料層級上融合LiDAR資料和相機資料或特徵層級的資料。圖4中的模型是早期融合的一個例子
與傳統分類方法定義的前融合不同,本文定義的前融合是指在原始資料層級透過空間對齊和投影直接融合各個模態資料的方法,前融合在數據級指的是融合光達數據,在數據級或特徵級融合圖像數據,示意圖如下:
在LiDAR分支中,點雲有多種表達方式,例如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點雲等。儘管這些資料在不同主幹網路中具有不同的內在特徵,但除了偽點雲之外[79],大部分的資料都是透過一定的規則處理產生。此外,與特徵空間嵌入相比,LiDAR的這些資料都具有很強的可解釋性,可以直接進行視覺化展示
在影像分支中,嚴格意義上的資料級定義是指RGB或灰度圖像,但是這個定義缺乏普遍性和合理性。因此,本文對前融合階段的影像資料的資料級定義進行了擴展,包括資料級和特徵級資料。值得一提的是,本文將語義分割的預測結果也作為前融合的一種(圖像特徵級),一方面是因為它有助於3D目標檢測,另一方面是因為語義分割的“目標級”特徵與整個任務的最終目標級提議是不同的
深度融合
#深度融合,也稱特徵級融合,是指在光達分支的特徵級融合多模態數據,但在影像分支的資料集和特徵級進行融合。例如一些方法使用特徵提舉起分別獲取LiDAR點雲和影像的嵌入表示,並透過一系列下游模組融合兩種模態的特徵。然而,與其他強融合不同的是,深度融合有時會以級聯方式融合特徵,這兩者都利用了原始和高級語義資訊。示意圖如下:
後融合
#後融合,也可以稱為目標級融合,是指對多個模態的預測結果(或提案)進行整合。例如,一些後融合方法利用LiDAR點雲和影像的輸出進行融合[55]。兩個分支的提案資料格式應與最終結果一致,但品質、數量和精度可能存在差異。後融合可以被看作是一種多模態資訊最佳化最終提案的整合方法,示意圖如下所示:
不對稱融合
##強融合的最後一種是不對稱融合,指的是融合一個分支的目標級資訊和其他分支的資料級或特徵級資訊。上述三種融合方法將多模態的各個分支平等對待,不對稱融合則強調至少有一個分支佔據主導地位,其他分支則提供輔助資訊預測最終結果。下圖是不對稱融合的示意圖,在proposal階段,不對稱融合只有一個分支的proposal,而後融合則是所有分支的proposal。
6 弱融合
與強融合的區別在於,弱融合方法不會直接從多模態分支中融合數據、特徵或目標,而是以其他形式處理數據。下圖展示了弱融合演算法的基本架構。基於弱融合的方法通常使用基於一定規則的方法來利用一種模態的數據作為監督訊號,以指導另一種模態的交互作用。例如,影像分支中來自CNN的2D proposal可能會導致原始LiDAR點雲中出現截斷,弱融合直接將原始LiDAR 點雲輸入到 LiDAR 主幹中以輸出最終的proposal。
7 其他方式融合
#還有一些工作不屬於上述任何一種範式,因為它們在模型設計的框架中使用了多種融合方式,例如[39]結合了深度融合和後融合,[77]則結合了前融合。這些方法並非融合演算法設計的主流方式,本文統一歸為其他融合方式。
8 多模態融合的機會
近年來,用於自動駕駛感知任務的多模態融合方法取得了快速進展,從更高級的特徵表示到更複雜的深度學習模型。然而,還有一些懸而未決的問題有待解決,本文總結瞭如下幾個未來可能的改進方向 。
更先進的融合方法
目前的融合模型存在錯位和資訊遺失的問題[13,67,98]。此外,平融合(flat fusion)操作也阻礙了感知任務表現的進一步提升。總結如下:
- 錯位和資訊遺失:相機和LiDAR的內外在差異很大,兩種模態的資料需要進行座標對齊。傳統的前融合和深度融合方法利用標定資訊將所有LiDAR點直接投影到相機座標系,反之亦然。然而由於架設位置、感測器噪聲,這種逐像素的對齊是不夠準確的。因此,一些工作利用周圍資訊進行補充以獲取更好的性能。此外,在輸入和特徵空間的轉換過程中,也存在一些其他資訊的遺失。通常,降維操作的投影不可避免地會導致大量資訊遺失,例如將3D LiDAR點雲映射為2D BEV影像中則損失了高度資訊。因此,可以考慮將多模態數據映射到另一種專為融合設計的高維度空間,進而有效的利用原始數據,減少資訊損失。
- 更合理的融合操作:目前許多方法使用級聯或元素相乘的方式進行融合。這些簡單的操作可能無法融合分佈差異較大的數據,因此難以擬合兩個模態間的語意紅狗。一些工作試圖使用更複雜的級聯結構來融合資料並提高效能。在未來的研究中,雙線性映射等機制可以融合具有不同特徵的特徵,也是可以考慮的方向。
多源資訊利用
前視單幀影像是自動駕駛感知任務的典型場景。然而,大多數框架只能利用有限的信息,並未詳細設計輔助任務來促進駕駛場景的理解。總結如下:
- 採用更多的潛在資訊:現有方法缺乏對個維度和來源的資訊的有效利用。大多數都將精力放在前視圖中的單幀多模態資料上。這就導致其他有意義的數據並未被充分利用,例如語義、空間和場景上下文資訊。有些工作嘗試使用語意分割結果輔助任務,而其他模型則有可能利用CNN主幹的中間層特徵。在自動駕駛場景中,許多具有顯式語義資訊的下游任務可能會極大的提高目標偵測效能,例如車道線、交通燈和交通標誌的偵測。未來的研究可以結合下游任務,共同建構一個完整的城市場景的語意理解框架,來提升感知表現。此外,[63]結合了幀間資訊提升性能。時間序列資訊包含序列化的監控訊號,與單幀方法相比,它可以提供更穩定的結果。因此,未來的工作可以考慮更深入地利用時間、上下文和空間資訊來實現效能突破。
- 自監督表徵學習:互相監督的訊號自然存在於從同一個真實世界場景但不同角度取樣的跨模態資料中。然而,由於缺乏對數據的深入理解,目前的方法還無法挖掘各個模態間的相互關係。未來的研究可以集中在如何利用多模態資料進行自我監督學習,包括預訓練、微調或對比學習。透過這些最先進的機制,融合演算法將加深模型對資料更深層的理解,同時取得更好的效能。
感測器固有問題
現實世界的場景和感測器高度會影響域偏差和解析度。這些不足會妨礙自動駕駛深度學習模型的大規模訓練和即時操作
- 域偏差:在自動駕駛感知場景中,不同感測器擷取的原始資料伴隨著嚴重的領域相關特徵。不同的攝影機有不同的光學特性,而LiDAR可能會從機械結構到固態結構而有所不同。更重要的是,數據本身會存在域偏差,例如天氣、季節或地理位置,即使它是由相同的感測器捕獲的。這就導致檢測模型的泛化性受到影響,無法有效適應新場景。這類缺陷阻礙了大規模資料集的收集和原始訓練資料的複用性。因此,未來可以專注於尋找一種消除域偏差並自適應整合不同資料來源的方法。
- 解析度衝突:不同的感測器通常有不同的解析度。例如,LiDAR的空間密度明顯低於影像的空間密度。無論採用哪種投影方式,都會因為找不到對應關係而導致資訊損失。這可能會導致模型被特定模態的資料所主導,無論是特徵向量的分辨率不同還是原始資訊的不平衡。因此,未來的工作可以探索一種與不同空間解析度感測器相容的新數據表示系統。
9參考
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
原文連結:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
以上是深入探討多模態融合感知演算法在自動駕駛的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

译者 | 朱先忠审校 | 孙淑娟在我之前的博客中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

导读:因果推断是数据科学的一个重要分支,在互联网和工业界的产品迭代、算法和激励策略的评估中都扮演者重要的角色,结合数据、实验或者统计计量模型来计算新的改变带来的收益,是决策制定的基础。然而,因果推断并不是一件简单的事情。首先,在日常生活中,人们常常把相关和因果混为一谈。相关往往代表着两个变量具有同时增长或者降低的趋势,但是因果意味着我们想要知道对一个变量施加改变的时候会发生什么样的结果,或者说我们期望得到反事实的结果,如果过去做了不一样的动作,未来是否会发生改变?然而难点在于,反事实的数据往往是

SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未标记的图像中捕获高级语义信息。SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。 并且它学习到的表示可以很容易地转移到下游任务,例如对象检测、语义分割和小样本学习,只需在较小的标记

一、盒马供应链介绍1、盒马商业模式盒马是一个技术创新的公司,更是一个消费驱动的公司,回归消费者价值:买的到、买的好、买的方便、买的放心、买的开心。盒马包含盒马鲜生、X 会员店、盒马超云、盒马邻里等多种业务模式,其中最核心的商业模式是线上线下一体化,最快 30 分钟到家的 O2O(即盒马鲜生)模式。2、盒马经营品类介绍盒马精选全球品质商品,追求极致新鲜;结合品类特点和消费者购物体验预期,为不同品类选择最为高效的经营模式。盒马生鲜的销售占比达 60%~70%,是最核心的品类,该品类的特点是用户预期时

译者 | 李睿 审校 | 孙淑娟随着机器学习成为人们每天都在使用的很多应用程序的一部分,人们越来越关注如何识别和解决机器学习模型的安全和隐私方面的威胁。 然而,不同机器学习范式面临的安全威胁各不相同,机器学习安全的某些领域仍未得到充分研究。尤其是强化学习算法的安全性近年来并未受到太多关注。 加拿大的麦吉尔大学、机器学习实验室(MILA)和滑铁卢大学的研究人员开展了一项新研究,主要侧重于深度强化学习算法的隐私威胁。研究人员提出了一个框架,用于测试强化学习模型对成员推理攻击的脆弱性。 研究

1.线性回归线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。例如


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver Mac版
視覺化網頁開發工具