新標題:Sparse4D v3:推進端到端的3D偵測與追蹤技術
論文連結:https://arxiv.org/pdf/2311.11722.pdf
需要重寫的內容為:程式碼連結:https://github.com/linxuewu/Sparse4D
重新寫的內容:作者所屬單位為地平線公司
在自動駕駛感知系統中,3D偵測與追蹤是兩項基本任務。本文基於 Sparse4D 框架更深入地研究了這個領域。本文引入了兩個輔助訓練任務(時序實例去噪-Temporal Instance Denoising和質量估計-Quality Estimation),並提出解耦注意力(decoupled attention)來進行結構改進,從而顯著提高檢測性能。此外,本文使用簡單的方法將偵測器擴展到追蹤器,該方法在推理過程中分配實例 ID,進一步突顯了 query-based 演算法的優勢。在 nuScenes 基準上進行的大量實驗驗證了所提出的改進的有效性。以ResNet50為骨幹,mAP、NDS和AMOTA分別增加了3.0%、2.2%和7.6%,分別達到46.9%、56.1%和49.0%。本文最好的模型在nuScenes 測試集上實現了71.9% NDS 和67.7% AMOTA
Sparse4D-v3 是一個強大的3D 感知框架,它提出了三種有效的策略:時序實例去噪、品質估計和解耦注意力
本文將Sparse4D 擴展為端對端追蹤模型。
本文展示了 nuScenes 改進的有效性,在偵測和追蹤任務中實現了最先進的效能。
首先,觀察到與稠密演算法相比,稀疏演算法在收斂方面面臨更大的挑戰,從而影響了最終性能。這個問題已經在2D檢測領域中得到了充分研究[17,48,53],主要原因是稀疏演算法使用了一對一的正樣本匹配。這種匹配方式在訓練初期不穩定,而且與一對多匹配相比,正樣本數量有限,從而降低了解碼器訓練的效率。此外,Sparse4D使用稀疏特徵採樣而不是全域交叉注意力,由於正樣本稀缺,這進一步阻礙了編碼器的收斂。在Sparse4Dv2中,引入了密集深度監督來部分緩解影像編碼器面臨的這些收斂問題。本文的主要目標是透過關註解碼器訓練的穩定性來增強模型效能。本文將去噪任務作為輔助監督,並將去噪技術從2D單幀檢測擴展到3D時序檢測。這不僅保證了穩定的正樣本匹配,而且顯著增加了正樣本的數量。此外,本文也引入了品質評估任務作為輔助監督。這使得輸出的置信度分數更加合理,並提高了檢測結果排名的準確性,從而獲得更高的評估指標。此外,本文改進了Sparse4D中實例自註意力和時序交叉注意力模組的結構,引入了一種解耦注意力機制,旨在減少注意力權重計算過程中的特徵幹擾。透過將錨點嵌入和實例特徵作為注意力計算的輸入,可以減少注意力權重中存在異常值的實例。這樣可以更準確地反映目標特徵之間的相互關聯,從而實現正確的特徵聚合。本文使用連接而不是注意力機制來顯著減少這種錯誤。這種增強方法與條件DETR有相似之處,但關鍵差異在於本文強調查詢之間的注意力,而條件DETR則專注於查詢和影像特徵之間的交叉注意力。此外,本文也涉及獨特的編碼方法
為了提高感知系統的端到端能力,本文研究了將3D多目標追蹤任務整合到Sparse4D框架中的方法,以直接輸出目標的運動軌跡。與基於檢測的追蹤方法不同,本文透過消除資料關聯和過濾的需求,將所有追蹤功能整合到偵測器中。此外,與現有的聯合檢測和追蹤方法不同,本文的追蹤器在訓練過程中無需進行修改或調整損失函數。它不需要提供ground truth IDs,而是實現了預先定義的實例到追蹤的回歸。本文的追蹤實現充分融合了偵測器和追蹤器,無需修改偵測器的訓練過程,也無需額外微調
這是一個關於Sparse4D框架概述的圖1 ,輸入是多視圖視頻,輸出是所有幀的感知結果
圖2:不同演算法的nuScenes 驗證資料集上的推理效率(FPS) - 感知性能( mAP)。
圖3:實例自註意力中的注意力權重的可視化:1)第一行顯示了普通自註意力中的注意力權重,其中紅色圓圈中的行人顯示出與目標車輛(綠色框)的意外相關性。 2)第二行顯示了解耦注意力中的注意力權重,有效解決了這個問題。
第四張圖展示了時序實例去噪的範例。在訓練階段,實例包括兩個部分:可學習的和噪音的。噪音實例由時間和非時間元素組成。本文採用預匹配方法來分配正樣本和負樣本,即將 anchors 與 ground truth 進行匹配,而可學習實例則與預測和 ground truth 進行匹配。在測試階段,只保留綠色塊。為防止特徵在groups 之間傳播,採用了Attention mask,灰色表示queries 和keys 之間沒有註意力,綠色表示相反
請看圖5:錨點編碼器和注意力的架構。本文獨立地對錨點的多個組件進行了高維特徵編碼,然後將它們連接起來。與原始的Sparse4D相比,這種方法可以減少計算和參數的開銷。 E和F分別表示錨點嵌入和實例特徵
Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking.
###ArXiv. /abs/2311.11722###以上是Sparse4D v3來了!推進端到端3D偵測與追蹤的詳細內容。更多資訊請關注PHP中文網其他相關文章!