首頁  >  文章  >  科技週邊  >  視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

WBOY
WBOY轉載
2023-05-23 14:07:061372瀏覽

近期,浙江大學ReLER實驗室將SAM與分割視訊進行深度結合,發布Segment-and-Track Anything (SAM-Track)。

SAM-Track賦予了SAM對視訊目標的追蹤能力,並支援多種方式(點、畫筆、文字)進行互動。

在此基礎上,SAM-Track統一了多個傳統視訊分割任務,達成了一鍵分割追蹤任意視訊中的任意目標,將傳統視訊分割外推至通用視訊分割。

SAM-Track具有卓越的效能,在複雜場景下僅需單卡就能高品質地穩定追蹤數百個目標。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

計畫網址:https://github.com/z-x-yang/Segment-and-Track -Anything

論文網址:https://arxiv.org/abs/2305.06558

效果展示

SAM-Track支援語言輸入作為Prompt。例如,給定類別文字「熊貓」,便可一鍵實例級分割追蹤所有屬於「熊貓」這一類別的目標。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

也可進一步給出更詳細的描述,例如輸入文字「最左邊的熊貓」,SAM-Track可定位至特定目標進行分割追蹤。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

相較於傳統視訊追蹤演算法,SAM-Track的另一個強大之處在於可對大量目標同時進行追蹤分割,並自動偵測新出現的物體。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

SAM-Track也支援多種互動方式組合使用,使用者可依實際需求搭配。例如使用畫筆框定與人體緊密連接的滑板,防止分割多餘物體,而後使用點擊選擇人體。

全自動視訊目標分割與追蹤自然也不在話下,各種應用場景包括街景、空拍、AR、動畫、醫學影像等,均可一鍵分割追蹤並自動偵測新出現的物體。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

如果對自動分割結果不滿意,使用者可在此基礎上進行編輯修正,例如使用點擊來修正過分割的電車。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

同時最新版本的SAM-Track支援將追蹤結果線上瀏覽,可選擇中間任一幀的分割結果進行修改和新增目標,並再次追蹤。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

為了方便使用者線上體驗,專案提供了WebUI,可透過Colab一鍵部署:

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

模型組成

SAM-Track模型是基於ECCV'22 VOT Workshop四個賽道的冠軍方案DeAOT。

DeAOT是一個高效能的多目標VOS模型,在給定首幀物件標註的情況下,可以追蹤視訊其餘影格中的物件分割。

DeAOT採用一種識別機制,將一個影片中的多個目標嵌入到同一高維空間中,從而實現了同時對多個物體進行追蹤。

DeAOT在多物體追蹤方面的速度表現能夠與其他針對單一物體追蹤的VOS方法相媲美。

此外,透過基於分層的Transformer的傳播機制,DeAOT更好地聚合了長時序和短時序訊息,表現出了優異的追蹤效能。

由於DeAOT需要參考影格的標註來初始化,為了提高便捷性,SAM-Track使用了最近在影像分割領域大放異彩的Segment Anything Model(SAM)模型來獲取標註資訊。

利用SAM優異的零樣本遷移能力,以及多種互動方式,SAM-Track能有效率地為DeAOT取得高品質的參考影格標註資訊。

雖然SAM模型在影像分割領域表現出色,但它無法輸出語意標籤,且文字提示也無法很好地支援Referring Object Segmentation及其他依賴深層語意理解的任務。

因此,SAM-Track模型進一步整合了Grounding-DINO,實現了高精度的語言引導的視訊分割。 Grounding DINO是一個開放集合目標偵測模型,具有良好的語言理解能力。

根據輸入的類別或目標物件的詳細描述,Grounding-DINO可以偵測到目標並傳回位置方塊。

SAM-Track模型架構

如下圖所示,SAM-Track模型支援了三種物件追蹤模式,分別為互動追蹤模式、自動追蹤模式以及融合模式。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

對於互動追蹤模式,SAM-Track模型首先會套用SAM,在參考影格中利用點擊或畫框的方式選取目標,直到得到使用者滿意的交互分割結果。

如果想要實現語言引導的視訊物件分割,SAM-Track則會呼叫Grounding-DINO根據輸入的文本,先得到目標物件的位置框,並在此基礎上透過SAM得到感興趣物體的分割結果。

最後DeAOT將交互分割結果作為參考幀,並對選取的目標進行追蹤。在追蹤的過程中,DeAOT會將過去幀中的視覺嵌入和高維ID嵌入分層傳播到當前幀中,實現逐幀追蹤分割多個目標物件。因此,SAM-Track能過支援多模態的互動方式來追蹤分割影片中的興趣物體。

然而,互動追蹤模式無法處理影片中出現的新出現的物件。限制了SAM-Track在特定領域的應用,例如,自動駕駛,智慧城市等。

為了進一步拓展SAM-Track的應用範圍和效能,SAM-Track實現了自動追蹤模式,對影片中出現的新物件進行追蹤。

自動追蹤模式透過Segment Everything和Object of Interest Segmentation兩種方式來獲得每n幀中新出現的物體的註解。對於新出現的物體的ID分配問題,SAM-Track採用了比較遮罩模組(CMR)來決定新的物件的ID。

融合模式則是把互動追蹤模式和自動追蹤模式結合在一起。透過互動式追蹤模式使用者可以很方便地取得影片中第一幀的註釋,而自動追蹤模式則可以處理影片後續影格中出現的未被選取的新物件。追蹤方法的組合擴大了SAM-Track的應用範圍,增加了SAM-Track的實用性。

以上是視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除