搜尋
首頁科技週邊人工智慧基於Transformer的高效單階段短時RGB-T單目標追蹤方法

引言

如圖1所示,現有的三階段RGB-T單目標追蹤網路通常採用兩個獨立的特徵提取分支,分別負責提取兩個模態的特徵。然而,相互獨立的特徵提取分支會導致兩個模態在特徵提取階段存在缺乏有效的資訊交互作用。因此,一旦網路完成離線訓練,其只能從每個模態影像中提取固定的特徵,無法根據實際的模態狀態動態調整,以提取更具針對性的動態特徵。這個限制約束了網絡對多樣的目標雙模態外觀,以及模態外觀之間動態對應關係的適應能力。如圖2所示,這種特徵提取方式並不適合RGB-T單目標追蹤的實際應用場景,特別是在複雜環境下,因為被追蹤目標的任意性會導致的目標雙模態外觀多樣,並且兩個模態之間的動態關係也會隨著追蹤環境的變化而改變。三階段融合追蹤無法很好地適應這種情況,從而導致其有明顯的速度瓶頸。

除了基於Transformer的RGB-T單目標追蹤網路都是採用直接相加或級聯的方式,將兩個模態搜尋區域的特徵組合在一起,輸入預測頭,用於輸出最終的預測結果。然而,目前RGB-T單目標追蹤資料集提供的視訊影像並不是完全對齊的,而且也不是每個模態搜尋區域都可以提供有效信息,例如黑夜和熱交叉追蹤場景下,RGB模態搜尋區域和紅外線搜索區域將無法提供有效的目標外觀訊息,存在大量的背景噪音。因此,直接透過以元素相加或級聯的方式來融合特徵,沒有考慮到不同搜尋區域融合特徵的問題。 為了解決這個問題,本文提出了一種新的方法,稱為融合特徵選擇模組(FFSM)。 FFSM模組主要用於選擇具有有效資訊的目標外觀的搜尋區域特徵。具體來說,FFSM模組首先透過注意力機制學習每個搜尋區域特徵的權重。然後,根據這些權重對搜尋區域特徵進行加權求和,得到最終的融合特徵。這種機制可以有效地過濾掉無效的背景噪音,並提取出具有較高重要性的目標外觀訊息,從而改善了RGB-T單目標追蹤效能。 為了驗證FFSM模組的有效性,我們在大量的背景噪音存在的情況下進行了實驗。實驗結果表明,與直接按元素相加或級聯的方式相比,使用FFSM模組的RGB-T單目標追蹤網路在目標追蹤中取得了更好的效能。在黑夜和熱交叉追蹤場景下,FFSM模組能夠準確地選擇有效的目標外觀訊息,提高了目標追蹤的準確性和穩健性。 總之,FFSM模組的引入有效地解決了直接融合特徵的問題,提高了RGB-T單目標追蹤網路的效能。此方法可以廣泛應用於大量背景雜訊存在

基於Transformer的高效單階段短時RGB-T單目標追蹤方法
圖1
基於Transformer的高效單階段短時RGB-T單目標追蹤方法
圖2

####################################本文介紹了一種基於Transformer的高效單階段RGB-T單目標追蹤網路USTrack。其核心是透過聯合特徵提取、融合和關聯建模方法,將三階段融合追蹤方法的三個功能部分直接統一到一個ViT主幹網路中同時執行,從而實現在模態交互下直接提取目標模板和搜索區域的融合特徵,並建構兩個融合特徵之間的關聯建模,從而大大提升了追蹤速度和精度。此外,USTrack還設計了一個基於模態可靠性的特徵選擇機制,該機制透過直接抑制無效模態的產生,可以減少無效模態的干擾,從而減少雜訊訊息對最終追蹤結果的影響。最終,USTrack創造了當前RGB-T單目標追蹤中最快的速度84.2FPS,並透過兩個模態影像中目標的微小位置偏差以及減輕無效模態訊息對追蹤結果的影響,大大減少了雜訊訊息對最終預測結果的影響。 ######本文的貢獻如下:######目前三階段融合追蹤網路在模態特徵提取階段存在缺乏模態交互作用的問題。本章提出聯合特徵提取 & 融合 & 關聯建模方法。此方法可以在模態的交互下直接提取目標模板和搜尋區域的融合特徵,並同時執行兩個融合特徵之間的關聯建模操作。首次為短時RGB-T單目標追蹤網路的設計提供了一個高效且簡潔的單階段融合追蹤範式。 ###

不改變原文意思,調整句子結構,「(2)首次提出基於模態可靠性的特徵選擇機制,該機制可以根據實際追蹤環境來評估不同模態影像的可靠性,並根據可靠性來丟棄無效模態產生的融合特徵,減少雜訊資訊對最終預測結果的影響,從而進一步提高追蹤效能。大量實驗,顯示本文的方法在實現了新的SoTA 效能的同時,也創造了高達84.2FPS 的最快追蹤速度。特別是在 VTUAV 短時追蹤器資料集和長時追蹤資料集上,USTrack 在 MPR/MSR 指標上比現有性能最好的方法提高了 11.1%/11.7% 和 11.3%/9.7%。

方法

如圖 3 所示,USTrack 的整體架構由三個部分組成:雙嵌入層、ViT 主幹網路和基於模態可靠性的特徵選擇機制。雙嵌入層由兩個獨立的嵌入層組成。這是考慮到注意力機制是基於相似度去獲取全局信息的,並不同模態數據的內在性能,可能會導致兩個模態對同一模式有不同的特徵表示形式,如果直接通過注意力對模態資訊進行融合,這種異質性可能會限製網路對模態狀態共享資訊的建模能力,進而影響後續的特徵融合過程。因此,USTrack 使用兩個可學習的嵌入層將不同模態對應的輸入映射到一個有利於融合的空間,在一定程度上對兩個模態進行模式對齊,降低模態內在性對特徵融合的影響。然後,將雙嵌入層的所有輸出聯合作為 ViT 主幹網路的輸入,透過注意力層直接通 過度專注於對模態訊息進行融合,特徵融合以及目標模板融合,統一 RGB-T 追蹤的三個功能階段,為 RGB-T 追蹤提供一個高效的單階段追蹤範式。

基於模式可靠性的特徵選擇機制是一個預測頭和兩個可靠性評估模組。它允許兩個預測頭輸出不同的結果,並根據模式可靠性的得分,幫助網路選擇更適合當前追蹤場景的模式所對應的搜尋區域。特徵選擇機制可用於最終的預測,從而減少無效模式產生的噪音資訊對最終預測結果的影響。

圖3基於Transformer的高效單階段短時RGB-T單目標追蹤方法
實驗結果

USTrack選擇GTOT、RGB234以及VTUAV資料集作為測試基準,測試結果如圖4所示。我們也以VTUAV為基準,對USTrack在不同挑戰場景下的表現進行分析。如圖5所示,本文篩選了效能提升最為明顯的6個挑戰屬性。分別為:形變(DEF)、尺度變化(SV)、完全遮蔽(FO)、部分遮蔽(PO)、熱交叉(TC)以及極端光照(EI)。具體來說,形變(DEF)和尺度變化(SV)挑戰屬性可以有效地展示了目標在追蹤過程中不同外觀的差異。完全遮蔽(FO)、部分遮蔽(PO)、熱交叉(TC)和極端光照(EI)挑戰屬性可以導致相應模態狀態的外觀變化或消失,有效地展示了目標在不同挑戰場景中的動態關係。 USTrack 在具有這些挑戰屬性的追蹤場景下取得了最顯著的效能提升,可以評估聯合特徵提取& 融合& 關聯建模方法可有效緩解三階段融合追蹤範式中模態特徵在提取階段交互不足的問題,能夠更好地適應目標在追蹤過程中不同外觀和模態之間的動態關係。

圖4基於Transformer的高效單階段短時RGB-T單目標追蹤方法
基於Transformer的高效單階段短時RGB-T單目標追蹤方法
##如圖6和所示,為了驗證基於模態可靠性的特徵選擇機制的有效性,我們在RGBT234 基準資料集上,展開了帶有特徵選擇機制的雙預測頭結構與幾種常見預測頭結構的對比實驗,並給出了模態可靠性與實際追蹤場景良好對應關係的可視化的結果。
基於Transformer的高效單階段短時RGB-T單目標追蹤方法
圖6
基於Transformer的高效單階段短時RGB-T單目標追蹤方法
圖7

#總結

本章提出了一個基於Transformer的高效單階段短時RGB-T 單目標追蹤網USTrack。 USTrack 的核心是提出聯合特徵提取 & 融合 & 關聯建模方法,以解決傳統三階段融合追蹤網路在特徵提取階段缺乏模態互動的問題。從而增強追蹤網絡了對多樣的目標雙模態外觀和模態外觀之間動態對應關係的適應能力。在此基礎上,進一步提出了基於模態可靠性的特徵選擇機制。該機制透過直接摒棄無效模態產生的融合特徵,來減少了噪音資訊對最終預測結果的影響,從而獲得更好的追蹤性能。 USTrack 在三個主流資料集上實現了 SoTA 效能,並以 84.2 FPS 的速度創造了最快 RGB-T 追蹤推理速度的新記錄。值得注意的是,在目前規模最大的RGB-T 單目標追蹤基準資料集VTUAV 上,該方法比現有SoTA 方法在評估指標MPR/MSR 上分別增加了11.1%/11.7% 和11.3%/9.7% ,取得了較大的效能突破,為該基準資料集增添了一個新的功能強大的基線方法。

作者資訊

1. 夏強

軍事科學院國防科技創新研究院碩士研究生。研究興趣包括視覺影像處理、目標偵測、單目標追蹤等。第一作者發表CCF A類會議一篇,獲2022年「華為盃」第四屆中國研究生人工智慧創新大賽華為專案一等獎。

2. 趙健

趙健,中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智慧研究院研究員,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智能。

圍繞無約束視覺感知理解共發表CCF-A類論文32篇,以第一/通訊作者在T-PAMI、CVPR等國際權威期刊和會議上發表論文31篇,含一作T- PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技業領導者中得到應用,產生了顯著效益。曾入選中科協及北京市科協“青年人才托舉工程”,並主持國自然青年科學基金等項目6項。曾獲吳文俊人工智慧優秀青年獎(2023)、吳文俊人工智慧自然科學獎一等獎(2/5,2022)、新加坡模式識別與機器智慧協會(PREMIA)Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎(一作,1/208,CCF-A類會議,2018),7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學會理事,國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委,《Pattern Recognition Letters》、《Electronics》特刊客座編輯,VALSE資深領域主席, ACM Multimedia 2021分論壇主席,CICAI 2022/2023領域主席,CCBR 2024論壇主席,中國人工智慧學會/中國圖象圖形學會高級會員,「挑戰盃」大學生科技作品競賽評審,中國人工智慧大賽專家委委員等。

首頁:https://zhaoj9014.github.io

論文截圖

基於Transformer的高效單階段短時RGB-T單目標追蹤方法

######################## #####論文連結############https://arxiv.org/abs/2308.13764############程式碼連結####### ######https://github.com/xiajianqiang######

以上是基於Transformer的高效單階段短時RGB-T單目標追蹤方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器