搜尋
首頁科技週邊人工智慧華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

Meta的「分割一切」的橫空出世,讓許多人驚呼CV不存在了。

基於這個模型,眾網友紛紛做了進一步工作,例如Grounded SAM。

將Stable Diffusion、Whisper、ChatGPT結合使用,就能做到透過語音讓一隻狗變成一隻猴子。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

而現在,不僅僅是語音,你可以透過多模態提示實現一次性分割所有地方的一切。

具體怎麼做?

滑鼠點一下,直接選取分割內容。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

張口一句話。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

隨手一塗,完整的表情包就來了。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

甚至,還能分割影片。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

最新研究SEEM是由威斯康辛大學麥迪遜分校、微軟研究院等機構的學者共同完成。

透過SEEM使用不同種類的提示,視覺提示(點、標記、框、塗鴉和圖像片段)、以及語言提示(文字和音訊)輕鬆分割圖像。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

論文網址:https://arxiv.org/pdf/2304.06718.pdf

#這個論文標題有趣的地方在於,與2022年上映的美國科幻電影《瞬息全宇宙》(Everything Everywhere All at Once)的名字非常相似。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

英偉達科學家Jim Fan表示,奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」

擁有一個統一的、多功能的任務規範介面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

看過論文後,網友表示,CV現在也要開始擁抱大模型了,研究生未來出路在哪?

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

奧斯卡最佳標題論文

正是受到基於提示的LLMs通用介面發展的啟發,研究人員提出了SEEM。

如圖所示,SEEM模型可以在沒有提示的開放集中執行任何分割任務,例如語意分割、實例分割和全景分割。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

此外,它還支援任意組合的視覺,文字和引用區域提示,允許多功能和互動的引用分割。

在模型架構上,SEEM採用了常見的編碼器-解碼器架構。其獨特的地方在於具有查詢和提示之間複雜的互動。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

特徵和提示被對應的編碼器,或取樣器編碼到一個聯合的視覺語意空間。

可學習查詢是隨機初始化,SEEM解碼器接受可學習查詢、圖像特徵和文字提示作為輸入和輸出,包括類別和掩碼嵌入,用於掩碼和語義預測。

值得一提的是,SEEM模型有多輪交互作用。每一輪都包含一個人工循環和一個模型循環。

在人工循環中,人工接收上一次迭代的遮罩輸出,並透過視覺提示給予下一輪解碼的正回饋。在模型循環中,模型接收並更新未來預測的記憶提示。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

透過SEEM,給一個擎天柱卡車的圖,就能分割任何目標影像上的擎天柱。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

透過使用者輸入的文字產生掩模,進行一鍵分割。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

另外,SEEM透過對引用圖像的簡單點擊,或塗鴉,就能夠對目標圖像上有相似語義的對象進行分割。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

此外,SEEM非常了解解空間關係。左上行斑馬被塗鴉後,也會分割出最左邊的斑馬。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

SEEM還可以將圖像引用到視頻掩碼,不需要任何視頻資料訓練,都能完美分割視頻。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

#資料集和設定上,SEEM在三種資料集接受了訓練:全景分割,引用分割和互動式分割。

互動式分割

#

在互動式分割上,研究者將SEEM與最先進的互動式分割模型進行了比較。

作為一個通用模型,SEEM獲得了RITM,SimpleClick等相當的效能。而且與SAM取得非常相似的效能,SAM也多用了50個分割資料進行訓練。

值得注意的是,與現有的互動模型不同,SEEM是第一個不僅支援經典的分割任務,而且還支援廣泛的多模態輸入,包括文本、點、塗鴉、邊界框和圖像,提供了強大的組合能力。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

通用分割

##透過對所有分割任務預先訓練的一組參數,研究者可以直接評估它在通用分割資料集上的表現。

SEEM實作了比較好的全景視圖,實例和語意分割效能。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

研究者對SEEM有四個期望目標:

1 . 多功能性:透過引入多功能提示引擎處理不同類型的提示,包括點、框、塗鴉、遮罩、文字和另一個圖像的引用區域;

2.複合性:透過學習一個聯合視覺-語意空間,為視覺和文字提示組合即時查詢進行推理;

3. 互動性:透過整合可學習的記憶提示,透過掩碼引導的交叉注意力保留對話歷史資訊;

4. 語意感知:透過使用文本編碼器對文本查詢和遮罩標籤進行編碼,實現開放詞彙表的分割。

和SAM區別

#Meta提出的SAM模型,可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,一鍵分割出物體。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

SAM具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用於新的影像領域,無論是水下照片,還是細胞顯微鏡。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

研究者就三個分割任務(邊緣偵測、開放式集合和互動式分割)的交互作用和語意能力對SEEM和SAM進行了比較。

在開放集分割上,同樣需要高水準的語義,且不需要交互作用。

與SAM相比,SEEM涵蓋了更廣泛的互動和語意層次。

SAM只支援有限的互動類型,例如點和邊界框,而忽略了高語意任務,因為它本身不輸出語意標籤。

對於SEEM,研究者點出了兩個亮點:

#首先,SEEM有一個統一的提示編碼器,將所有的視覺和語言提示編碼到一個聯合表示空間。因此,SEEM可以支援更通用的用法,它有可能擴展到自訂提示。

其次,SEEM在文字遮罩和輸出語意感知預測方面做得很好。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

作者介紹

論文一作Xueyan Zou

她目前是威斯康辛大學麥迪遜分校的電腦科學系博士生,導師是Yong Jae Lee教授。

在此之前,Zou在加州大學戴維斯分校度過了三年時光,由同一位導師指導,並與Fanyi Xiao博士密切合作。

她在香港浸會大學獲得了學士學位,由PC Yuen教授和褚曉文教授指導。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

#Jianwei Yang

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

Jianwei Yang

Yang是Redmond微軟研究院深度學習組的高級研究員,由高劍峰博士指導。

Yang的研究主要集中在電腦視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解,以及如何進一步利用它們透過語言和環境的體現與人類進行智慧互動。 在2020年3月加入微軟之前,Yang在喬治亞理工學院互動計算學院獲得了電腦科學博士學位,他的導師是Devi Parikh教授,他也與Dhruv Batra教授密切合作。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

高劍峰

#高劍峰是微軟研究院的傑出科學家和副總裁,IEEE會員,以及ACM傑出會員。

目前,高劍峰領導深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用,並在對話模型和方法方面取得進展。

研究主要包括,用於自然語言理解和產生的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智慧等等。

2014年到2018年,高劍峰在微軟人工智慧與研究部和Redmond微軟研究院的深度學習技術中心(DLTC)擔任商業人工智慧的合作夥伴研究經理。 2006年到2014年,高劍峰在自然語言處理組擔任首席研究員。

華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」

Yong Jae Lee

#Lee是華盛頓大學麥迪遜分校計算機科學系的副教授。

他在2021年秋天加入華盛頓大學麥迪遜分校之前,曾在Cruise擔任過一年的人工智慧客座教師,在此之前,他在加州大學戴維斯分校擔任了6年的助理和副教授。

他也曾在卡內基美隆大學的機器人研究所當了一年的博士後研究員。

###他於2012年5月在德州大學奧斯汀分校獲得博士學位,師從Kristen Grauman,並於2006年5月在伊利諾大學厄巴納-香檳分校獲得學士學位。 ############他也曾以微軟研究院的暑期實習生與Larry Zitnick和Michael Cohen一起工作。 ######

目前,Lee的研究集中在電腦視覺和機器學習。 Lee對創建強大的視覺識別系統格外感興趣,該系統可以在最少的人類監督下理解視覺數據。

目前,SEEM已經開啟了示範demo:

#https://huggingface.co/spaces/xdecoder/SEEM

#快上手試試吧。

以上是華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境