目標追蹤是電腦視覺的基礎任務之一,近年來,單模態(RGB)目標追蹤取得了重大進展。然而,由於單一成像感測器的限制,我們需要引入多模態影像(如RGB、紅外線等)來彌補這一缺陷,以實現在複雜環境下的全天候目標追蹤。這種多模態影像的應用可以提供更全面的信息,增強目標檢測和追蹤的準確性和穩健性。多模態目標追蹤的發展對於實現更高層次的電腦視覺應用具有重要意義。
然而,現有的多模態追蹤任務也面臨兩個主要問題:
在RGB序列上進行預訓練,然後完全微調到多模態場景的許多多模態追蹤工作存在時間和效率問題,同時效能有限。
除了完全微調方法之外,還受到自然語言處理(NLP)領域參數高效微調方法的啟發。最近的一些方法在多模態追蹤中引入了參數高效prompt微調。這些方法透過凍結骨幹網路參數,並添加一組額外可學習的參數來實現。
通常,這些方法主要以一種模態(通常是RGB)作為主要模態,而另一種模態則作為輔助模態。然而,這種方法忽略了多模態資料之間的動態關聯性,因此在複雜場景中無法充分利用多模態資訊的互補效果,從而限制了追蹤效能。
圖 1:複雜場景下不同的主導模態。
為了解決上述問題,天津大學的研究人員提出了一種名為雙向適配器用於多模態追蹤(BAT)的解決方案。與傳統方法不同的是,BAT方法不依賴固定的主導模態和輔助模態,而是透過動態提取有效資訊的過程中,在輔助模態向主導模態的變化中獲得更好的性能。這種方法的創新之處在於它能夠適應不同的資料特徵和任務需求,從而提高基礎模型在下游任務中的表示能力。透過使用BAT方法,研究人員希望能夠提供更靈活和高效的多模態追蹤解決方案,為相關領域的研究和應用帶來更好的效果。
BAT 由兩個特定於模態分支的共享參數的基礎模型編碼器和一個通用的雙向適配器組成。在訓練過程中,BAT 並沒有對基礎模型進行全面微調,而是採用了逐步訓練的方法。每個特定的模態分支都是透過使用固定參數的基礎模型進行初始化的,只訓練新增的雙向適配器。每個模態分支從其他模態中學習提示訊息,並與當前模態的特徵資訊結合,以增強表徵能力。兩個特定模態的分支透過通用雙向適配器進行交互,動態地相互融合主導和輔助訊息,以適應多模態非固定關聯的範式。這種設計使得BAT能夠在不改變原內容意義的情況下微調內容,並提升模型的表徵能力與適應性。
通用雙向適配器採用輕量級沙漏結構,可以嵌入到基礎模型的每一層transformer編碼器中,避免引入大量可學習參數。透過僅增加少量的訓練參數(0.32M),與全微調方法和基於提示學習的方法相比,通用雙向適配器具有更低的訓練成本,並獲得更好的追蹤性能。
論文《Bi-directional Adapter for Multi-modal Tracking》:
##論文連結:https ://arxiv.org/abs/2312.10611
#程式碼連結:https://github.com/SparkTempest/BAT#
如圖2 所示,我們提出了一個基於雙向Adapter 的多模態追蹤視覺提示框架(BAT),框架具有RGB 模態和熱紅外線模態的雙流編碼器結構,每個流使用相同的基礎模型參數。雙向 Adapter 與雙流編碼器層並行設置,從兩個模態相互交叉提示多模態資料。
方法沒有對基礎模型進行完全的微調,僅透過學習輕量級雙向Adapter,將預先訓練好的RGB 追蹤器高效地轉移到多模態場景中,實現了出色的多模態互補性和卓越的追蹤精度。
圖 2:BAT 的整體架構。
首先將每個模態的#模板影格(第一幀中目標物體的初始方塊#)和搜尋影格(後續追蹤影像)轉換為 ,將它們拼接在一起分別傳遞給N 層雙流transformer 編碼器。
雙向 adapter 與雙流編碼器層並行設置,可以學習從一種模態到另一種模態的特徵提示。為此,將兩個分支的輸出特徵相加並輸入到預測頭 H 中,得到最終的追蹤結果框 B。
雙向adapter 採用模組化設計,分別嵌入多頭自註意力階段和MLP 階段,如圖1 右側所示雙向adapter 的詳細結構,其設計用於將特徵提示從一種模態轉移到另一種模態。它由三個線性投影層組成,tn 表示每個模態的token 個數,輸入token 首先通過下投影被降維為de 並通過一個線性投影層,然後向上投影到原始維度dt 並作為特徵提示反饋到其他模態的transformer 編碼器層。
透過這個簡單的結構,雙向 adapter 可以有效地在 模態之間進行特徵提示,實現多模態追蹤。
由於凍結了 transformer 編碼器和預測頭,因此只需要最佳化新增 adapter 的參數。值得注意的是,與大多數傳統 adapter 不同,我們的雙向 adapter 是作為動態變化的主導模態的跨模態特徵提示而發揮作用的,確保了開放世界中良好的跟踪性能。
如表1 所示,在RGBT234 和LasHeR 兩個資料集上的比較顯示我們在的方法在準確率和成功率上均優於最先進的方法。如圖 3 所示,在 LasHeR 資料集的不同場景屬性下,與最先進方法的效能比較也證明了所提出方法的優越性。
這些實驗充分證明了我們的雙流追蹤框架與雙向Adapter 成功地追蹤了大多數複雜環境中的目標,並自適應地從動態變化的主導- 輔助模態中提取有效訊息,達到了最先進的性能。
表 1 RGBT234 和 LasHeR 資料集上的整體效能。
圖 3 LasHeR 資料集中不同屬性下 BAT 與競爭方法的比較。
實驗證明我們在複雜場景中從不斷變化的主導 - 輔助模式中動態提示有效資訊的有效性。如圖4 所示,與固定主導模態的相關方法相比,我們的方法即使在RGB 完全不可用的情況下也能有效地追踪目標,當RGB 和TIR 在後續場景中都能提供有效的信息時,追蹤效果要好得多。我們的雙向 Adapter 從 RGB 和 IR 模態中動態提取目標的有效特徵,捕捉更準確的目標響應位置,並消除 RGB 模態的干擾。
圖 4 追蹤結果的視覺化。
我們同樣在 RGBE 追蹤資料集上評估了我們的方法。如圖 5 所示,在 VisEvent 測試集上與其他方法相比,我們的方法在不同複雜場景下的追蹤結果最為準確,證明了我們的 BAT 模型的有效性和泛化性。
圖 5 VisEvent 資料集下追蹤結果。
#圖 6 attention 權重視覺化。
我們在圖 6 中視覺化了不同層追蹤目標的注意力權重。與baseline-dual (基礎模型參數初始化的雙流框架) 方法相比,我們的BAT 有效地驅動輔助模態向主導模態學習更多的互補信息,同時隨著網絡深度的增加保持主導模態的有效性,從而提高了整體追蹤性能。
實驗表明,BAT 成功地捕捉了多模態互補訊息,實現了樣本自適應動態追蹤。
以上是BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器的詳細內容。更多資訊請關注PHP中文網其他相關文章!