搜尋
首頁科技週邊人工智慧BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器

目標追蹤是電腦視覺的基礎任務之一,近年來,單模態(RGB)目標追蹤取得了重大進展。然而,由於單一成像感測器的限制,我們需要引入多模態影像(如RGB、紅外線等)來彌補這一缺陷,以實現在複雜環境下的全天候目標追蹤。這種多模態影像的應用可以提供更全面的信息,增強目標檢測和追蹤的準確性和穩健性。多模態目標追蹤的發展對於實現更高層次的電腦視覺應用具有重要意義。

然而,現有的多模態追蹤任務也面臨兩個主要問題:

  1. 由於多模態目標追蹤的資料標註成本高,大多數現有資料集規模有限,不足以支援建構有效的多模態追蹤器;
  2. 因為不同的成像方式在變化的環境中對物體的敏感度不同,開放世界中主導模態是動態變化的,多模態資料之間的主導相關性並不固定。

在RGB序列上進行預訓練,然後完全微調到多模態場景的許多多模態追蹤工作存在時間和效率問題,同時效能有限。

除了完全微調方法之外,還受到自然語言處理(NLP)領域參數高效微調方法的啟發。最近的一些方法在多模態追蹤中引入了參數高效prompt微調。這些方法透過凍結骨幹網路參數,並添加一組額外可學習的參數來實現。

通常,這些方法主要以一種模態(通常是RGB)作為主要模態,而另一種模態則作為輔助模態。然而,這種方法忽略了多模態資料之間的動態關聯性,因此在複雜場景中無法充分利用多模態資訊的互補效果,從而限制了追蹤效能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 1:複雜場景下不同的主導模態。

為了解決上述問題,天津大學的研究人員提出了一種名為雙向適配器用於多模態追蹤(BAT)的解決方案。與傳統方法不同的是,BAT方法不依賴固定的主導模態和輔助模態,而是透過動態提取有效資訊的過程中,在輔助模態向主導模態的變化中獲得更好的性能。這種方法的創新之處在於它能夠適應不同的資料特徵和任務需求,從而提高基礎模型在下游任務中的表示能力。透過使用BAT方法,研究人員希望能夠提供更靈活和高效的多模態追蹤解決方案,為相關領域的研究和應用帶來更好的效果。

BAT 由兩個特定於模態分支的共享參數的基礎模型編碼器和一個通用的雙向適配器組成。在訓練過程中,BAT 並沒有對基礎模型進行全面微調,而是採用了逐步訓練的方法。每個特定的模態分支都是透過使用固定參數的基礎模型進行初始化的,只訓練新增的雙向適配器。每個模態分支從其他模態中學習提示訊息,並與當前模態的特徵資訊結合,以增強表徵能力。兩個特定模態的分支透過通用雙向適配器進行交互,動態地相互融合主導和輔助訊息,以適應多模態非固定關聯的範式。這種設計使得BAT能夠在不改變原內容意義的情況下微調內容,並提升模型的表徵能力與適應性。

通用雙向適配器採用輕量級沙漏結構,可以嵌入到基礎模型的每一層transformer編碼器中,避免引入大量可學習參數。透過僅增加少量的訓練參數(0.32M),與全微調方法和基於提示學習的方法相比,通用雙向適配器具有更低的訓練成本,並獲得更好的追蹤性能。

論文《Bi-directional Adapter for Multi-modal Tracking》:

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

##論文連結:https ://arxiv.org/abs/2312.10611

#程式碼連結:https://github.com/SparkTempest/BAT#

主要貢獻

  • 我們首先提出了一個基於 adapter 的多模態追蹤視覺提示框架。我們的模型能夠感知開放場景中主導模態的動態變化,以自適應的方式有效融合多模態資訊。
  • 據我們所知,我們首次為基礎模型提出了一個通用的雙向 adapter。它結構簡單、高效,能有效實現多模態交叉提示追蹤。透過僅添加 0.32M 可學習參數,我們的模型可以穩健應對開放場景下的多模態追蹤。
  • 我們深入分析了我們的通用 adapter 在不同層深的影響。我們也在實驗中探索了更有效率的 adapter 架構,並驗證了我們在多個 RGBT 追蹤相關資料集上的優勢。

核心方法

如圖2 所示,我們提出了一個基於雙向Adapter 的多模態追蹤視覺提示框架(BAT),框架具有RGB 模態和熱紅外線模態的雙流編碼器結構,每個流使用相同的基礎模型參數。雙向 Adapter 與雙流編碼器層並行設置,從兩個模態相互交叉提示多模態資料。

方法沒有對基礎模型進行完全的微調,僅透過學習輕量級雙向Adapter,將預先訓練好的RGB 追蹤器高效地轉移到多模態場景中,實現了出色的多模態互補性和卓越的追蹤精度。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 2:BAT 的整體架構。

首先將每個模態的首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024#模板影格(第一幀中目標物體的初始方塊首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024#)和首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024搜尋影格(後續追蹤影像)轉換為 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024,將它們拼接在一起分別傳遞給N 層雙流transformer 編碼器。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

雙向 adapter 與雙流編碼器層並行設置,可以學習從一種模態到另一種模態的特徵提示。為此,將兩個分支的輸出特徵相加並輸入到預測頭 H 中,得到最終的追蹤結果框 B。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

雙向adapter 採用模組化設計,分別嵌入多頭自註意力階段和MLP 階段,如圖1 右側所示雙向adapter 的詳細結構,其設計用於將特徵提示從一種模態轉移到另一種模態。它由三個線性投影層組成,tn 表示每個模態的token 個數,輸入token 首先通過下投影被降維為de 並通過一個線性投影層,然後向上投影到原始維度dt 並作為特徵提示反饋到其他模態的transformer 編碼器層。

透過這個簡單的結構,雙向 adapter 可以有效地在 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024 模態之間進行特徵提示,實現多模態追蹤。

由於凍結了 transformer 編碼器和預測頭,因此只需要最佳化新增 adapter 的參數。值得注意的是,與大多數傳統 adapter 不同,我們的雙向 adapter 是作為動態變化的主導模態的跨模態特徵提示而發揮作用的,確保了開放世界中良好的跟踪性能。

實驗效果

如表1 所示,在RGBT234 和LasHeR 兩個資料集上的比較顯示我們在的方法在準確率和成功率上均優於最先進的方法。如圖 3 所示,在 LasHeR 資料集的不同場景屬性下,與最先進方法的效能比較也證明了所提出方法的優越性。

這些實驗充分證明了我們的雙流追蹤框架與雙向Adapter 成功地追蹤了大多數複雜環境中的目標,並自適應地從動態變化的主導- 輔助模態中提取有效訊息,達到了最先進的性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

表 1 RGBT234 和 LasHeR 資料集上的整體效能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 3 LasHeR 資料集中不同屬性下 BAT 與競爭方法的比較。

實驗證明我們在複雜場景中從不斷變化的主導 - 輔助模式中動態提示有效資訊的有效性。如圖4 所示,與固定主導模態的相關方法相比,我們的方法即使在RGB 完全不可用的情況下也能有效地追踪目標,當RGB 和TIR 在後續場景中都能提供有效的信息時,追蹤效果要好得多。我們的雙向 Adapter 從 RGB 和 IR 模態中動態提取目標的有效特徵,捕捉更準確的目標響應位置,並消除 RGB 模態的干擾。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 4 追蹤結果的視覺化。

我們同樣在 RGBE 追蹤資料集上評估了我們的方法。如圖 5 所示,在 VisEvent 測試集上與其他方法相比,我們的方法在不同複雜場景下的追蹤結果最為準確,證明了我們的 BAT 模型的有效性和泛化性。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 5 VisEvent 資料集下追蹤結果。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

#圖 6 attention 權重視覺化。

我們在圖 6 中視覺化了不同層追蹤目標的注意力權重。與baseline-dual (基礎模型參數初始化的雙流框架) 方法相比,我們的BAT 有效地驅動輔助模態向主導模態學習更多的互補信息,同時隨著網絡深度的增加保持主導模態的有效性,從而提高了整體追蹤性能。

實驗表明,BAT 成功地捕捉了多模態互補訊息,實現了樣本自適應動態追蹤。

以上是BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境