近期,浙江大學ReLER實驗室將SAM與分割視訊進行深度結合,發布Segment-and-Track Anything (SAM-Track)。
SAM-Track賦予了SAM對視訊目標的追蹤能力,並支援多種方式(點、畫筆、文字)進行互動。
在此基礎上,SAM-Track統一了多個傳統視訊分割任務,達成了一鍵分割追蹤任意視訊中的任意目標,將傳統視訊分割外推至通用視訊分割。
SAM-Track具有卓越的效能,在複雜場景下僅需單卡就能高品質地穩定追蹤數百個目標。
計畫網址:https://github.com/z-x-yang/Segment-and-Track -Anything
論文網址:https://arxiv.org/abs/2305.06558
效果展示
SAM-Track支援語言輸入作為Prompt。例如,給定類別文字「熊貓」,便可一鍵實例級分割追蹤所有屬於「熊貓」這一類別的目標。
也可進一步給出更詳細的描述,例如輸入文字「最左邊的熊貓」,SAM-Track可定位至特定目標進行分割追蹤。
相較於傳統視訊追蹤演算法,SAM-Track的另一個強大之處在於可對大量目標同時進行追蹤分割,並自動偵測新出現的物體。
SAM-Track也支援多種互動方式組合使用,使用者可依實際需求搭配。例如使用畫筆框定與人體緊密連接的滑板,防止分割多餘物體,而後使用點擊選擇人體。
全自動視訊目標分割與追蹤自然也不在話下,各種應用場景包括街景、空拍、AR、動畫、醫學影像等,均可一鍵分割追蹤並自動偵測新出現的物體。
如果對自動分割結果不滿意,使用者可在此基礎上進行編輯修正,例如使用點擊來修正過分割的電車。
同時最新版本的SAM-Track支援將追蹤結果線上瀏覽,可選擇中間任一幀的分割結果進行修改和新增目標,並再次追蹤。
為了方便使用者線上體驗,專案提供了WebUI,可透過Colab一鍵部署:
模型組成
SAM-Track模型是基於ECCV'22 VOT Workshop四個賽道的冠軍方案DeAOT。
DeAOT是一個高效能的多目標VOS模型,在給定首幀物件標註的情況下,可以追蹤視訊其餘影格中的物件分割。
DeAOT採用一種識別機制,將一個影片中的多個目標嵌入到同一高維空間中,從而實現了同時對多個物體進行追蹤。
DeAOT在多物體追蹤方面的速度表現能夠與其他針對單一物體追蹤的VOS方法相媲美。
此外,透過基於分層的Transformer的傳播機制,DeAOT更好地聚合了長時序和短時序訊息,表現出了優異的追蹤效能。
由於DeAOT需要參考影格的標註來初始化,為了提高便捷性,SAM-Track使用了最近在影像分割領域大放異彩的Segment Anything Model(SAM)模型來獲取標註資訊。
利用SAM優異的零樣本遷移能力,以及多種互動方式,SAM-Track能有效率地為DeAOT取得高品質的參考影格標註資訊。
雖然SAM模型在影像分割領域表現出色,但它無法輸出語意標籤,且文字提示也無法很好地支援Referring Object Segmentation及其他依賴深層語意理解的任務。
因此,SAM-Track模型進一步整合了Grounding-DINO,實現了高精度的語言引導的視訊分割。 Grounding DINO是一個開放集合目標偵測模型,具有良好的語言理解能力。
根據輸入的類別或目標物件的詳細描述,Grounding-DINO可以偵測到目標並傳回位置方塊。
SAM-Track模型架構
如下圖所示,SAM-Track模型支援了三種物件追蹤模式,分別為互動追蹤模式、自動追蹤模式以及融合模式。
對於互動追蹤模式,SAM-Track模型首先會套用SAM,在參考影格中利用點擊或畫框的方式選取目標,直到得到使用者滿意的交互分割結果。
如果想要實現語言引導的視訊物件分割,SAM-Track則會呼叫Grounding-DINO根據輸入的文本,先得到目標物件的位置框,並在此基礎上透過SAM得到感興趣物體的分割結果。
最後DeAOT將交互分割結果作為參考幀,並對選取的目標進行追蹤。在追蹤的過程中,DeAOT會將過去幀中的視覺嵌入和高維ID嵌入分層傳播到當前幀中,實現逐幀追蹤分割多個目標物件。因此,SAM-Track能過支援多模態的互動方式來追蹤分割影片中的興趣物體。
然而,互動追蹤模式無法處理影片中出現的新出現的物件。限制了SAM-Track在特定領域的應用,例如,自動駕駛,智慧城市等。
為了進一步拓展SAM-Track的應用範圍和效能,SAM-Track實現了自動追蹤模式,對影片中出現的新物件進行追蹤。
自動追蹤模式透過Segment Everything和Object of Interest Segmentation兩種方式來獲得每n幀中新出現的物體的註解。對於新出現的物體的ID分配問題,SAM-Track採用了比較遮罩模組(CMR)來決定新的物件的ID。
融合模式則是把互動追蹤模式和自動追蹤模式結合在一起。透過互動式追蹤模式使用者可以很方便地取得影片中第一幀的註釋,而自動追蹤模式則可以處理影片後續影格中出現的未被選取的新物件。追蹤方法的組合擴大了SAM-Track的應用範圍,增加了SAM-Track的實用性。
以上是視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達的詳細內容。更多資訊請關注PHP中文網其他相關文章!

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver Mac版
視覺化網頁開發工具