搜尋
首頁科技週邊人工智慧基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

引言

參考視訊目標分割(Referring VOS, RVOS)是一個新興起的任務,它旨在根據參考文本,從一段視訊序列中分割出文本所指述的對象。與半監督視訊目標分割相比,RVOS 只依賴抽象的語言描述而不是像素級的參考遮罩,為人機互動提供了更方便的選擇,因此受到了廣泛關注。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

論文連結:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

#該研究的主要目的是為解決現有RVOS 任務中所面臨的兩大挑戰:

  • ##如何將文本訊息、圖片資訊進行跨模態融合,從而既保持兩種模態間的尺度一致性,又能充分地將文本所提供的有用特徵參考充分融入圖片特徵中;

  • 如何拋棄現有方法的二階段策略(即先在圖片層級逐幀得到粗略的結果,再利用該結果作為參考,經過增強時序資訊的結構細化得到最終預測),將整個RVOS 任務統一進單階段的框架中。
  • 對此,研究提出了一種
  • 跨模態元遷移的端對端RVOS 框架—YOFO

#,其主要的貢獻與創新點為:

#只需單階段推理,即可實現利用參考文本資訊直接得到視訊目標的分割結果,在兩個主流的資料集——Ref-DAVIS2017 和Ref-Youtube-VOS 上獲得的效果超越了目前所有二階段方法;基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

提出了一個元遷移( Meta-Transfer)模組來增強時序訊息,從而實現了更聚焦於目標的特徵學習;提出了一個多尺度跨模態特徵挖掘(Multi-Scale Cross-Modal Feature Mining)模組,能夠充分融合語言、圖片中的有用特徵。

實作策略YOFO 框架主要流程如下:輸入圖片和文字先分別經過圖片編碼器和語言編碼器擷取特徵,接著在多尺度跨模態特徵挖掘模組進行融合。融合後的雙模態特徵在包含了記憶庫的元遷移模組中進行簡化,排除掉語言特徵中的冗餘訊息,同時能保存時序訊息來增強時間相關性,最後透過一個解碼器得到分割結果。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

圖 1:YOFO 框架主要流程。 多尺度跨模態特徵挖掘模組:此模組透過逐級融合不同尺度的兩個模態特徵,能夠保持影像特徵所傳達的尺度訊息與語言特徵間的一致性,更重要的是保證了語言訊息不會在融合過程中被多尺度影像訊息所淡化淹沒。

圖 2:多尺度跨模態特徵挖掘模組。 基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

################################################################# #######:採用了一種learning-to-learn 策略,過程可以簡單地描述為以下的映射函數。其中遷移函數#########是一個卷積,則#########是它的捲積核參數:#######

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

優化的過程可以表達為以下目標函數:

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

其中,M 代表能夠儲存歷史資訊的記憶庫,W 代表不同位置的權重,能夠對特徵中不同的位置賦予不同的關注度,Y 代表儲存在記憶庫中的每個視訊幀的雙模態特徵。此最佳化過程盡可能地使元遷移函數具有重構雙模態特徵的能力,同時也使得整個框架能夠進行端到端的訓練。

訓練與測試:訓練時所使用的損失函數是lovasz loss,訓練集為兩個影片資料集Ref-DAVIS2017 、Ref-Youtube-VOS,並透過靜態資料集Ref-COCO 進行隨機仿射變換模擬視訊資料作為輔助訓練。元遷移的過程在訓練和預測時都要進行,整個網路在 1080ti 上的運行速度達到了 10FPS。

實驗結果

研究採用的方法在兩個主流RVOS 資料集(Ref-DAVIS2017 和Ref-Youtube-VOS)上都取得了優異的效果,量化指標及部分視覺化效果圖如下: 

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

#圖3:在兩個主流資料集上的量化指標。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

#圖 4:在 VOS 資料集上的視覺化效果。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

#圖 5:YOFO 的其他視覺化效果展示。

研究也透過一系列的消融實驗以說明特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

圖 6:特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。

此外,研究分別對使用了MT 模組和不使用MT 模組的解碼器輸出特徵進行了可視化,可以明顯地看出MT 模組能夠正確地捕捉到語言所描述的內容且對幹擾噪音進行過濾。

基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段

圖 7:使用 MT 模組前後的解碼器輸出特徵比較。 關於研究團隊

本論文由美圖影像研究院(MT Lab)和大連理工大學盧湖川團隊的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力於電腦視覺、機器學習、擴增實境、雲端運算等領域的演算法研究、工程開發和產品化落地的團隊,為美圖現有和未來的產品提供核心演算法支持,並透過前沿技術推動美圖產品發展,被稱為「美圖技術中樞」,曾先後多次參與CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,並斬獲冠亞軍十餘項。

以上是基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。