搜尋
首頁科技週邊人工智慧視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

近期,浙江大學ReLER實驗室將SAM與分割視訊進行深度結合,發布Segment-and-Track Anything (SAM-Track)。

SAM-Track賦予了SAM對視訊目標的追蹤能力,並支援多種方式(點、畫筆、文字)進行互動。

在此基礎上,SAM-Track統一了多個傳統視訊分割任務,達成了一鍵分割追蹤任意視訊中的任意目標,將傳統視訊分割外推至通用視訊分割。

SAM-Track具有卓越的效能,在複雜場景下僅需單卡就能高品質地穩定追蹤數百個目標。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

計畫網址:https://github.com/z-x-yang/Segment-and-Track -Anything

論文網址:https://arxiv.org/abs/2305.06558

效果展示

SAM-Track支援語言輸入作為Prompt。例如,給定類別文字「熊貓」,便可一鍵實例級分割追蹤所有屬於「熊貓」這一類別的目標。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

也可進一步給出更詳細的描述,例如輸入文字「最左邊的熊貓」,SAM-Track可定位至特定目標進行分割追蹤。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

相較於傳統視訊追蹤演算法,SAM-Track的另一個強大之處在於可對大量目標同時進行追蹤分割,並自動偵測新出現的物體。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

SAM-Track也支援多種互動方式組合使用,使用者可依實際需求搭配。例如使用畫筆框定與人體緊密連接的滑板,防止分割多餘物體,而後使用點擊選擇人體。

全自動視訊目標分割與追蹤自然也不在話下,各種應用場景包括街景、空拍、AR、動畫、醫學影像等,均可一鍵分割追蹤並自動偵測新出現的物體。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

如果對自動分割結果不滿意,使用者可在此基礎上進行編輯修正,例如使用點擊來修正過分割的電車。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

同時最新版本的SAM-Track支援將追蹤結果線上瀏覽,可選擇中間任一幀的分割結果進行修改和新增目標,並再次追蹤。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

為了方便使用者線上體驗,專案提供了WebUI,可透過Colab一鍵部署:

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

模型組成

SAM-Track模型是基於ECCV'22 VOT Workshop四個賽道的冠軍方案DeAOT。

DeAOT是一個高效能的多目標VOS模型,在給定首幀物件標註的情況下,可以追蹤視訊其餘影格中的物件分割。

DeAOT採用一種識別機制,將一個影片中的多個目標嵌入到同一高維空間中,從而實現了同時對多個物體進行追蹤。

DeAOT在多物體追蹤方面的速度表現能夠與其他針對單一物體追蹤的VOS方法相媲美。

此外,透過基於分層的Transformer的傳播機制,DeAOT更好地聚合了長時序和短時序訊息,表現出了優異的追蹤效能。

由於DeAOT需要參考影格的標註來初始化,為了提高便捷性,SAM-Track使用了最近在影像分割領域大放異彩的Segment Anything Model(SAM)模型來獲取標註資訊。

利用SAM優異的零樣本遷移能力,以及多種互動方式,SAM-Track能有效率地為DeAOT取得高品質的參考影格標註資訊。

雖然SAM模型在影像分割領域表現出色,但它無法輸出語意標籤,且文字提示也無法很好地支援Referring Object Segmentation及其他依賴深層語意理解的任務。

因此,SAM-Track模型進一步整合了Grounding-DINO,實現了高精度的語言引導的視訊分割。 Grounding DINO是一個開放集合目標偵測模型,具有良好的語言理解能力。

根據輸入的類別或目標物件的詳細描述,Grounding-DINO可以偵測到目標並傳回位置方塊。

SAM-Track模型架構

如下圖所示,SAM-Track模型支援了三種物件追蹤模式,分別為互動追蹤模式、自動追蹤模式以及融合模式。

視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達

對於互動追蹤模式,SAM-Track模型首先會套用SAM,在參考影格中利用點擊或畫框的方式選取目標,直到得到使用者滿意的交互分割結果。

如果想要實現語言引導的視訊物件分割,SAM-Track則會呼叫Grounding-DINO根據輸入的文本,先得到目標物件的位置框,並在此基礎上透過SAM得到感興趣物體的分割結果。

最後DeAOT將交互分割結果作為參考幀,並對選取的目標進行追蹤。在追蹤的過程中,DeAOT會將過去幀中的視覺嵌入和高維ID嵌入分層傳播到當前幀中,實現逐幀追蹤分割多個目標物件。因此,SAM-Track能過支援多模態的互動方式來追蹤分割影片中的興趣物體。

然而,互動追蹤模式無法處理影片中出現的新出現的物件。限制了SAM-Track在特定領域的應用,例如,自動駕駛,智慧城市等。

為了進一步拓展SAM-Track的應用範圍和效能,SAM-Track實現了自動追蹤模式,對影片中出現的新物件進行追蹤。

自動追蹤模式透過Segment Everything和Object of Interest Segmentation兩種方式來獲得每n幀中新出現的物體的註解。對於新出現的物體的ID分配問題,SAM-Track採用了比較遮罩模組(CMR)來決定新的物件的ID。

融合模式則是把互動追蹤模式和自動追蹤模式結合在一起。透過互動式追蹤模式使用者可以很方便地取得影片中第一幀的註釋,而自動追蹤模式則可以處理影片後續影格中出現的未被選取的新物件。追蹤方法的組合擴大了SAM-Track的應用範圍,增加了SAM-Track的實用性。

以上是視訊分割大結局!浙大最新發布SAM-Track:通用智慧視訊分割一鍵直達的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具