華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

王林

May 14, 2023 pm 10:13 PM

影片影像

Meta的「分割一切」的橫空出世，讓許多人驚呼CV不存在了。

基於這個模型，眾網友紛紛做了進一步工作，例如Grounded SAM。

將Stable Diffusion、Whisper、ChatGPT結合使用，就能做到透過語音讓一隻狗變成一隻猴子。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

而現在，不僅僅是語音，你可以透過多模態提示實現一次性分割所有地方的一切。

具體怎麼做？

滑鼠點一下，直接選取分割內容。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

張口一句話。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

隨手一塗，完整的表情包就來了。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

甚至，還能分割影片。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

最新研究SEEM是由威斯康辛大學麥迪遜分校、微軟研究院等機構的學者共同完成。

透過SEEM使用不同種類的提示，視覺提示（點、標記、框、塗鴉和圖像片段）、以及語言提示（文字和音訊）輕鬆分割圖像。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

論文網址：https://arxiv.org/pdf/2304.06718.pdf

#這個論文標題有趣的地方在於，與2022年上映的美國科幻電影《瞬息全宇宙》（Everything Everywhere All at Once）的名字非常相似。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

英偉達科學家Jim Fan表示，奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」

擁有一個統一的、多功能的任務規範介面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

看過論文後，網友表示，CV現在也要開始擁抱大模型了，研究生未來出路在哪？

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

奧斯卡最佳標題論文

正是受到基於提示的LLMs通用介面發展的啟發，研究人員提出了SEEM。

如圖所示，SEEM模型可以在沒有提示的開放集中執行任何分割任務，例如語意分割、實例分割和全景分割。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

此外，它還支援任意組合的視覺，文字和引用區域提示，允許多功能和互動的引用分割。

在模型架構上，SEEM採用了常見的編碼器-解碼器架構。其獨特的地方在於具有查詢和提示之間複雜的互動。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

特徵和提示被對應的編碼器，或取樣器編碼到一個聯合的視覺語意空間。

可學習查詢是隨機初始化，SEEM解碼器接受可學習查詢、圖像特徵和文字提示作為輸入和輸出，包括類別和掩碼嵌入，用於掩碼和語義預測。

值得一提的是，SEEM模型有多輪交互作用。每一輪都包含一個人工循環和一個模型循環。

在人工循環中，人工接收上一次迭代的遮罩輸出，並透過視覺提示給予下一輪解碼的正回饋。在模型循環中，模型接收並更新未來預測的記憶提示。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

透過SEEM，給一個擎天柱卡車的圖，就能分割任何目標影像上的擎天柱。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

透過使用者輸入的文字產生掩模，進行一鍵分割。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

另外，SEEM透過對引用圖像的簡單點擊，或塗鴉，就能夠對目標圖像上有相似語義的對象進行分割。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

此外，SEEM非常了解解空間關係。左上行斑馬被塗鴉後，也會分割出最左邊的斑馬。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

SEEM還可以將圖像引用到視頻掩碼，不需要任何視頻資料訓練，都能完美分割視頻。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

#資料集和設定上，SEEM在三種資料集接受了訓練：全景分割，引用分割和互動式分割。

互動式分割

在互動式分割上，研究者將SEEM與最先進的互動式分割模型進行了比較。

作為一個通用模型，SEEM獲得了RITM，SimpleClick等相當的效能。而且與SAM取得非常相似的效能，SAM也多用了50個分割資料進行訓練。

值得注意的是，與現有的互動模型不同，SEEM是第一個不僅支援經典的分割任務，而且還支援廣泛的多模態輸入，包括文本、點、塗鴉、邊界框和圖像，提供了強大的組合能力。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

通用分割

##透過對所有分割任務預先訓練的一組參數，研究者可以直接評估它在通用分割資料集上的表現。

SEEM實作了比較好的全景視圖，實例和語意分割效能。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

研究者對SEEM有四個期望目標：

1 . 多功能性：透過引入多功能提示引擎處理不同類型的提示，包括點、框、塗鴉、遮罩、文字和另一個圖像的引用區域；

2.複合性：透過學習一個聯合視覺-語意空間，為視覺和文字提示組合即時查詢進行推理；

3. 互動性：透過整合可學習的記憶提示，透過掩碼引導的交叉注意力保留對話歷史資訊；

4. 語意感知：透過使用文本編碼器對文本查詢和遮罩標籤進行編碼，實現開放詞彙表的分割。

和SAM區別

#Meta提出的SAM模型，可以在一個統一框架prompt encoder內，指定一個點、一個邊界框、一句話，一鍵分割出物體。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

SAM具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓練，就可以開箱即用地用於新的影像領域，無論是水下照片，還是細胞顯微鏡。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

研究者就三個分割任務（邊緣偵測、開放式集合和互動式分割）的交互作用和語意能力對SEEM和SAM進行了比較。

在開放集分割上，同樣需要高水準的語義，且不需要交互作用。

與SAM相比，SEEM涵蓋了更廣泛的互動和語意層次。

SAM只支援有限的互動類型，例如點和邊界框，而忽略了高語意任務，因為它本身不輸出語意標籤。

對於SEEM，研究者點出了兩個亮點：

#首先，SEEM有一個統一的提示編碼器，將所有的視覺和語言提示編碼到一個聯合表示空間。因此，SEEM可以支援更通用的用法，它有可能擴展到自訂提示。

其次，SEEM在文字遮罩和輸出語意感知預測方面做得很好。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

作者介紹

論文一作Xueyan Zou

她目前是威斯康辛大學麥迪遜分校的電腦科學系博士生，導師是Yong Jae Lee教授。

在此之前，Zou在加州大學戴維斯分校度過了三年時光，由同一位導師指導，並與Fanyi Xiao博士密切合作。

她在香港浸會大學獲得了學士學位，由PC Yuen教授和褚曉文教授指導。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

#Jianwei Yang

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

Jianwei Yang

Yang是Redmond微軟研究院深度學習組的高級研究員，由高劍峰博士指導。

Yang的研究主要集中在電腦視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解，以及如何進一步利用它們透過語言和環境的體現與人類進行智慧互動。在2020年3月加入微軟之前，Yang在喬治亞理工學院互動計算學院獲得了電腦科學博士學位，他的導師是Devi Parikh教授，他也與Dhruv Batra教授密切合作。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

高劍峰

#高劍峰是微軟研究院的傑出科學家和副總裁，IEEE會員，以及ACM傑出會員。

目前，高劍峰領導深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用，並在對話模型和方法方面取得進展。

研究主要包括，用於自然語言理解和產生的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智慧等等。

2014年到2018年，高劍峰在微軟人工智慧與研究部和Redmond微軟研究院的深度學習技術中心（DLTC）擔任商業人工智慧的合作夥伴研究經理。 2006年到2014年，高劍峰在自然語言處理組擔任首席研究員。

華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

Yong Jae Lee

#Lee是華盛頓大學麥迪遜分校計算機科學系的副教授。

他在2021年秋天加入華盛頓大學麥迪遜分校之前，曾在Cruise擔任過一年的人工智慧客座教師，在此之前，他在加州大學戴維斯分校擔任了6年的助理和副教授。

他也曾在卡內基美隆大學的機器人研究所當了一年的博士後研究員。

###他於2012年5月在德州大學奧斯汀分校獲得博士學位，師從Kristen Grauman，並於2006年5月在伊利諾大學厄巴納-香檳分校獲得學士學位。 ############他也曾以微軟研究院的暑期實習生與Larry Zitnick和Michael Cohen一起工作。 ######

目前，Lee的研究集中在電腦視覺和機器學習。 Lee對創建強大的視覺識別系統格外感興趣，該系統可以在最少的人類監督下理解視覺數據。

目前，SEEM已經開啟了示範demo：

#https://huggingface.co/spaces/xdecoder/SEEM

#快上手試試吧。

以上是華人團隊顛覆CV！ SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲：與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室，由暴風雪和黑曜石等行業巨頭的退伍軍人組成，有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店，提供商會讓他們嗎？May 02, 2025 am 11:16 AM

Uber的Robotaxi策略：自動駕駛汽車的騎車生態系統在最近的Curbivore會議上，Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。利用他們在

AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明，視頻遊戲是最先進的AI研究的寶貴測試理由，尤其是在自主代理商和現實世界機器人的開發中，甚至有可能促進人工通用情報（AGI）的追求。一個

創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體，財務報告和日常對話中顯而易見。但是，對投資者，初創企業和資金的具體後果經常被忽略。風險資本3.0：範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新，反映了向可訪問性和生成AI的戰略轉變。該分析結合了事件前簡報中的見解，並融合了Adobe Leadership。（注意：Adob

Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略，旨在直接與OpenAI等封閉的AI系統競爭，同時為其開源模型創建了新的收入流。這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱，是時候揭露“皇帝的新衣”了，而另一些人則強烈反對人工智能僅僅是普通技術的觀點。讓我們來探討一下。對這一創新性人工智能突破的分析，是我持續撰寫的福布斯專欄文章的一部分，該專欄涵蓋人工智能領域的最新進展，包括識別和解釋各種有影響力的人工智能複雜性（請點擊此處查看鏈接）。人工智能作為普通技術首先，需要一些基本知識來為這場重要的討論奠定基礎。目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能（AGI）甚至可能實現人工超級智能（AS