寫在前面& 個人理解
時序融合是提升自動駕駛3D目標偵測感知能力的有效途徑,但目前的方法在實際自動駕駛場景中應用存在成本開銷等問題。最新研究文章《基於查詢的顯式運動時序融合用於3D目標檢測》在NeurIPS 2023中提出了一種新的時序融合方法,將稀疏查詢作為時序融合的對象,並利用顯式運動資訊來產生時序注意力矩陣,以適應大規模點雲的特性。此方法由華中科技大學和百度的研究者提出,稱為QTNet:基於查詢和顯式運動的3D目標偵測時序融合方法。實驗證明,QTNet能夠在幾乎沒有成本開銷的情況下為點雲、圖像和多模態檢測器帶來一致的性能提升
- 論文鏈接:https://openreview.net/pdf?id=gySmwdmVDF
- 程式碼連結:https://github.com/AlmoonYsl/QTNet
#問題背景
得益於現實世界的時間連續性,時間維度上的資訊可以使得感知資訊更加完備,進而提高目標偵測的精確度和穩健性,例如時序資訊可以幫助解決目標偵測中的遮蔽問題、提供目標的運動狀態和速度資訊、提供目標的持續性和一致性資訊。因此如何有效率地利用時序資訊是自動駕駛感知的重要問題。現有的時序融合方法主要分為兩類。一類是基於稠密的BEV特徵進行時序融合(點雲/影像時序融合都適用),另一類則是基於3D Proposal特徵進行時序融合 (主要針對點雲時序融合方法)。對於基於BEV特徵的時序融合,由於BEV上超過90%的點都是背景,而該類方法沒有更多地關注前景對象,這導致了大量沒有必要的計算開銷和次優的性能。對於基於3D Proposal的時序融合演算法,其透過耗時的3D RoI Pooling來產生3D Proposal特徵,尤其是在目標物較多,點雲數量較多的情況下,3D RoI Pooling所帶來的開銷在實際應用中往往是難以接受的。此外,3D Proposal 特徵嚴重依賴Proposal的質量,這在複雜場景中往往是受限的。因此,目前的方法都難以以極低開銷的方式有效率地引入時序融合來增強3D目標偵測的效能。
如何實現高效率的時序融合?
DETR是一種十分優秀的目標偵測範式,其提出的Query設計和Set Prediction想法有效地實現了無需任何後處理的優雅偵測範式。在DETR中,每個Query代表一個物體,並且Query相對於稠密的特徵來說十分稀疏(一般Query的數目會被設定為一個相對較少的固定數目)。如果以Quey作為時序融合的對象,那麼計算開銷的問題自然下降一個層次。因此DETR的Query範式是一種天然適合於時序融合的典範。時序融合需要建構多幀之間的物體關聯,以實現時序情境資訊的綜合。那麼主要問題在於如何建構基於Query的時序融合pipeline和兩幀間的Query建立關聯。
- 由於在實際場景中自車往往存在的運動,因此兩幀的點雲/圖像往往是坐標係不對齊的,並且實際應用中不可能在當前幀對所有歷史幀重新forward一次網路來擷取對齊後點雲/影像的特徵。因此本文採用Memory Bank的方式來只儲存歷史幀所得到的Query特徵及其對應的檢測結果,以避免重複計算。
- 由於點雲和影像在描述目標特徵上存在很大差異,透過特徵層面來建構統一時序融合方法是不太可行的。然而,在三維空間下,無論點雲或影像模態都能透過目標的幾何位置/運動資訊關係來刻畫相鄰影格之間的關聯關係。因此,本文採用物體的幾何位置和對應的運動資訊來引導兩個幀間物體的注意力矩陣。
方法介紹
QTNet的核心思想是利用Memory Bank儲存在歷史幀中獲得的Query特徵及其對應的檢測結果,以避免重複計算歷史幀的開銷。在兩個畫面Query之間,使用動作引導的注意力矩陣進行關係建模
總框架
如框架圖所示,QTNet包含3D DETR結構的3D目標偵測器(LiDAR、Camera和多模態皆可),Memory Bank和用於時序融合的Motion-guided Temporal Modeling Module (MTM)。 QTNet透過DETR結構的3D目標偵測器取得對應訊框的Query特徵及其偵測結果,並將所得的Query特徵及其偵測結果以先進先出佇列(FIFO)的方式送入Memory Bank。 Memory Bank的數目設定為時序融合所需的幀數。對於時序融合,QTNet從Memory Bank中從最遠時刻開始讀取數據,透過MTM模組以迭代的方式從 幀到 幀融合MemoryBank中的所有特徵以用來增強目前幀的Query特徵,並根據增強後的Query特徵來Refine對應的當前幀的檢測結果。
具體而言,QTNet在 幀融合 和 幀的Query特徵 與 ,並且得到增強後的 框架的Query特徵 。接著,QTNet再將 與 幀的Query特徵融合。以此透過迭代的方式不斷融合至 幀。請注意,這裡從 幀到 訊框所使用的MTM全部都是共享參數的。
運動引導注意力模組
#MTM使用物體的中心點位置來明確產生 幀Query和 幀Query的注意力矩陣。給定ego pose矩陣 和 、物體中心點、速度。首先,MTM使用ego pose和物體預測的速度資訊將上一幀的物體移動到下一幀並對齊兩幀的坐標系:
接著通過 幀物體中心點和 幀經過矯正的中心點建構歐式代價矩陣 。此外,為了避免可能發生的錯誤匹配,本文使用類別 和距離閾值 建構注意力掩碼 :
將代價矩陣轉換成注意力矩陣是最終目標
將注意力矩陣 作用在 幀的增強後的Query特徵 來聚合時序特徵以增強 幀的Query特徵:
最終增強的 幀的Query特徵 經過簡單的FFN來Refine對應的檢測結果,以實現增強檢測性能的作用。
解耦時序融合結構
#觀察到時序融合的分類和回歸學習有不平衡問題,一種解決方法是分別為分類和迴歸設計時序融合分支。然而,這種解耦方式會增加更多的計算成本和延遲,對於大多數方法而言不可接受。相較之下,QTNet利用高效率的時序融合設計,其運算成本和延遲可忽略不計,與整個3D檢測網路相比表現更優。因此,本文採取了分類和回歸分支在時序融合上的解耦方式,以在可忽略不計的成本情況下取得更好的檢測性能,如圖所示
##實驗效果
QTNet在點雲/影像/多模態上實現一致漲點
在nuScenes資料集上進行驗證後發現,QTNet在不使用未來在資訊、TTA和模型整合的情況下,取得了68.4的mAP和72.2的NDS,達到了SOTA效能。與使用了未來資訊的MGTANet相比,在3幀時序融合的情況下,QTNet的效能優於MGTANet,分別提升了3.0的mAP和1.0的NDS#
對於實際應用來說,時序融合的成本開銷非常重要。本文對QTNet在計算量、時延和參數量三方面進行了分析實驗。結果表明,與整個網路相比,QTNet對於不同基準線所帶來的計算開銷、時間延遲和參數量都可以忽略不計,尤其是計算量僅使用了0.1G FLOPs(LiDAR基準線)
不同時序融合範式比較
為了驗證基於Query的時序融合範式的優越性,我們選擇了具有代表性的不同前緣時序融合方法進行比較。透過實驗結果發現,基於Query範式的時序融合演算法相較於基於BEV和基於Proposal範式更有效率。在僅使用0.1G FLOPs和4.5ms的開銷下,QTNet表現出更優的性能,同時整體參數量僅為0.3M
消融實驗
本研究在nuScenes驗證集上進行了基於LiDAR baseline的消融實驗,透過3幀時序融合的方式。實驗結果表明,簡單地使用Cross Attention來建模時序關係並沒有明顯的效果。然而,當使用MTM後,偵測效能顯著提升,這說明在大規模點雲下顯式運動引導的重要性。此外,透過消融實驗也發現,QTNet的整體設計非常輕量且有效率。在使用4幀資料進行時序融合時,QTNet的計算量僅0.24G FLOPs,延遲也只有6.5毫秒
##MTM的可視化
為了探討MTM優於Cross Attention的原因,本文將兩幀間物體的注意力矩陣進行視覺化,其中相同的ID代表兩幀間同一個物體。可以發現由MTM產生的注意力矩陣(b)比Cross Attention產生的注意力矩陣(a)更有區分度,尤其是小物體之間的注意力矩陣。這顯示由顯式運動引導的注意力矩陣透過物理建模的方式使得模型更容易建立起兩幀間物體的關聯。本文僅僅只是初步探討了在時序融合中以物理方式建立時序關聯問題,對於如何更好地建構時序關聯仍然是值得探索的。檢測結果的視覺化
#本文以場景序列為物件進行了偵測結果的視覺化分析。可以發現左下角的小物體從幀開始快速遠離自車,這導致baseline在 幀漏檢了該物體,然而QTNet在 幀仍然可以偵測到該物體,這證明了QTNet在時序融合上的有效性。
本文總結
本文針對目前3D目標偵測任務提出了更有效率的基於Query的時序融合方法QTNet。其主要核心有兩點:一是使用稀疏Query作為時序融合的對象並通過Memory Bank存儲歷史信息以避免重複的計算,二是使用顯式的運動建模來引導時序Query間的注意力矩陣的生成,以此實現時序關係建模。透過這兩個關鍵思路,QTNet能夠有效率地實現可應用於LiDAR、Camera、多模態的時序融合,並以可忽略不計的成本開銷一致性地增強3D目標偵測的效能。以上是QTNet:全新時序融合方案解決方案,適用於點雲、影像和多模態偵測器(NeurIPS 2023)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 Linux新版
SublimeText3 Linux最新版

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器