參考視訊目標分割(Referring VOS, RVOS)是一個新興起的任務,它旨在根據參考文本,從一段視訊序列中分割出文本所指述的對象。與半監督視訊目標分割相比,RVOS 只依賴抽象的語言描述而不是像素級的參考遮罩,為人機互動提供了更方便的選擇,因此受到了廣泛關注。
論文連結:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
#該研究的主要目的是為解決現有RVOS 任務中所面臨的兩大挑戰:
#只需單階段推理,即可實現利用參考文本資訊直接得到視訊目標的分割結果,在兩個主流的資料集——Ref-DAVIS2017 和Ref-Youtube-VOS 上獲得的效果超越了目前所有二階段方法;
提出了一個元遷移( Meta-Transfer)模組來增強時序訊息,從而實現了更聚焦於目標的特徵學習;提出了一個多尺度跨模態特徵挖掘(Multi-Scale Cross-Modal Feature Mining)模組,能夠充分融合語言、圖片中的有用特徵。
實作策略YOFO 框架主要流程如下:輸入圖片和文字先分別經過圖片編碼器和語言編碼器擷取特徵,接著在多尺度跨模態特徵挖掘模組進行融合。融合後的雙模態特徵在包含了記憶庫的元遷移模組中進行簡化,排除掉語言特徵中的冗餘訊息,同時能保存時序訊息來增強時間相關性,最後透過一個解碼器得到分割結果。
圖 1:YOFO 框架主要流程。 多尺度跨模態特徵挖掘模組:此模組透過逐級融合不同尺度的兩個模態特徵,能夠保持影像特徵所傳達的尺度訊息與語言特徵間的一致性,更重要的是保證了語言訊息不會在融合過程中被多尺度影像訊息所淡化淹沒。
圖 2:多尺度跨模態特徵挖掘模組。
################################################################# #######:採用了一種learning-to-learn 策略,過程可以簡單地描述為以下的映射函數。其中遷移函數#########是一個卷積,則#########是它的捲積核參數:#######優化的過程可以表達為以下目標函數:
其中,M 代表能夠儲存歷史資訊的記憶庫,W 代表不同位置的權重,能夠對特徵中不同的位置賦予不同的關注度,Y 代表儲存在記憶庫中的每個視訊幀的雙模態特徵。此最佳化過程盡可能地使元遷移函數具有重構雙模態特徵的能力,同時也使得整個框架能夠進行端到端的訓練。
訓練與測試:訓練時所使用的損失函數是lovasz loss,訓練集為兩個影片資料集Ref-DAVIS2017 、Ref-Youtube-VOS,並透過靜態資料集Ref-COCO 進行隨機仿射變換模擬視訊資料作為輔助訓練。元遷移的過程在訓練和預測時都要進行,整個網路在 1080ti 上的運行速度達到了 10FPS。
研究採用的方法在兩個主流RVOS 資料集(Ref-DAVIS2017 和Ref-Youtube-VOS)上都取得了優異的效果,量化指標及部分視覺化效果圖如下:
#圖3:在兩個主流資料集上的量化指標。
#圖 4:在 VOS 資料集上的視覺化效果。
#圖 5:YOFO 的其他視覺化效果展示。
研究也透過一系列的消融實驗以說明特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。
圖 6:特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。
此外,研究分別對使用了MT 模組和不使用MT 模組的解碼器輸出特徵進行了可視化,可以明顯地看出MT 模組能夠正確地捕捉到語言所描述的內容且對幹擾噪音進行過濾。
圖 7:使用 MT 模組前後的解碼器輸出特徵比較。 關於研究團隊
本論文由美圖影像研究院(MT Lab)和大連理工大學盧湖川團隊的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力於電腦視覺、機器學習、擴增實境、雲端運算等領域的演算法研究、工程開發和產品化落地的團隊,為美圖現有和未來的產品提供核心演算法支持,並透過前沿技術推動美圖產品發展,被稱為「美圖技術中樞」,曾先後多次參與CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,並斬獲冠亞軍十餘項。
以上是基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段的詳細內容。更多資訊請關注PHP中文網其他相關文章!