Meta的「分割一切」的橫空出世,讓許多人驚呼CV不存在了。
基於這個模型,眾網友紛紛做了進一步工作,例如Grounded SAM。
將Stable Diffusion、Whisper、ChatGPT結合使用,就能做到透過語音讓一隻狗變成一隻猴子。
而現在,不僅僅是語音,你可以透過多模態提示實現一次性分割所有地方的一切。
具體怎麼做?
滑鼠點一下,直接選取分割內容。
張口一句話。
隨手一塗,完整的表情包就來了。
甚至,還能分割影片。
最新研究SEEM是由威斯康辛大學麥迪遜分校、微軟研究院等機構的學者共同完成。
透過SEEM使用不同種類的提示,視覺提示(點、標記、框、塗鴉和圖像片段)、以及語言提示(文字和音訊)輕鬆分割圖像。
論文網址:https://arxiv.org/pdf/2304.06718.pdf
#這個論文標題有趣的地方在於,與2022年上映的美國科幻電影《瞬息全宇宙》(Everything Everywhere All at Once)的名字非常相似。
英偉達科學家Jim Fan表示,奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」
擁有一個統一的、多功能的任務規範介面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。
看過論文後,網友表示,CV現在也要開始擁抱大模型了,研究生未來出路在哪?
正是受到基於提示的LLMs通用介面發展的啟發,研究人員提出了SEEM。
如圖所示,SEEM模型可以在沒有提示的開放集中執行任何分割任務,例如語意分割、實例分割和全景分割。
此外,它還支援任意組合的視覺,文字和引用區域提示,允許多功能和互動的引用分割。
在模型架構上,SEEM採用了常見的編碼器-解碼器架構。其獨特的地方在於具有查詢和提示之間複雜的互動。
特徵和提示被對應的編碼器,或取樣器編碼到一個聯合的視覺語意空間。
可學習查詢是隨機初始化,SEEM解碼器接受可學習查詢、圖像特徵和文字提示作為輸入和輸出,包括類別和掩碼嵌入,用於掩碼和語義預測。
值得一提的是,SEEM模型有多輪交互作用。每一輪都包含一個人工循環和一個模型循環。
在人工循環中,人工接收上一次迭代的遮罩輸出,並透過視覺提示給予下一輪解碼的正回饋。在模型循環中,模型接收並更新未來預測的記憶提示。
透過SEEM,給一個擎天柱卡車的圖,就能分割任何目標影像上的擎天柱。
透過使用者輸入的文字產生掩模,進行一鍵分割。
另外,SEEM透過對引用圖像的簡單點擊,或塗鴉,就能夠對目標圖像上有相似語義的對象進行分割。
此外,SEEM非常了解解空間關係。左上行斑馬被塗鴉後,也會分割出最左邊的斑馬。
SEEM還可以將圖像引用到視頻掩碼,不需要任何視頻資料訓練,都能完美分割視頻。
#資料集和設定上,SEEM在三種資料集接受了訓練:全景分割,引用分割和互動式分割。
互動式分割
#在互動式分割上,研究者將SEEM與最先進的互動式分割模型進行了比較。
作為一個通用模型,SEEM獲得了RITM,SimpleClick等相當的效能。而且與SAM取得非常相似的效能,SAM也多用了50個分割資料進行訓練。
值得注意的是,與現有的互動模型不同,SEEM是第一個不僅支援經典的分割任務,而且還支援廣泛的多模態輸入,包括文本、點、塗鴉、邊界框和圖像,提供了強大的組合能力。
通用分割
##透過對所有分割任務預先訓練的一組參數,研究者可以直接評估它在通用分割資料集上的表現。
SEEM實作了比較好的全景視圖,實例和語意分割效能。
研究者對SEEM有四個期望目標:
1 . 多功能性:透過引入多功能提示引擎處理不同類型的提示,包括點、框、塗鴉、遮罩、文字和另一個圖像的引用區域;
2.複合性:透過學習一個聯合視覺-語意空間,為視覺和文字提示組合即時查詢進行推理;
3. 互動性:透過整合可學習的記憶提示,透過掩碼引導的交叉注意力保留對話歷史資訊;
4. 語意感知:透過使用文本編碼器對文本查詢和遮罩標籤進行編碼,實現開放詞彙表的分割。
和SAM區別
#Meta提出的SAM模型,可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,一鍵分割出物體。
SAM具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用於新的影像領域,無論是水下照片,還是細胞顯微鏡。
研究者就三個分割任務(邊緣偵測、開放式集合和互動式分割)的交互作用和語意能力對SEEM和SAM進行了比較。
在開放集分割上,同樣需要高水準的語義,且不需要交互作用。
與SAM相比,SEEM涵蓋了更廣泛的互動和語意層次。
SAM只支援有限的互動類型,例如點和邊界框,而忽略了高語意任務,因為它本身不輸出語意標籤。
對於SEEM,研究者點出了兩個亮點:
#首先,SEEM有一個統一的提示編碼器,將所有的視覺和語言提示編碼到一個聯合表示空間。因此,SEEM可以支援更通用的用法,它有可能擴展到自訂提示。
其次,SEEM在文字遮罩和輸出語意感知預測方面做得很好。
論文一作Xueyan Zou
她目前是威斯康辛大學麥迪遜分校的電腦科學系博士生,導師是Yong Jae Lee教授。
在此之前,Zou在加州大學戴維斯分校度過了三年時光,由同一位導師指導,並與Fanyi Xiao博士密切合作。
她在香港浸會大學獲得了學士學位,由PC Yuen教授和褚曉文教授指導。
#Jianwei Yang
Jianwei Yang
Yang是Redmond微軟研究院深度學習組的高級研究員,由高劍峰博士指導。
Yang的研究主要集中在電腦視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解,以及如何進一步利用它們透過語言和環境的體現與人類進行智慧互動。 在2020年3月加入微軟之前,Yang在喬治亞理工學院互動計算學院獲得了電腦科學博士學位,他的導師是Devi Parikh教授,他也與Dhruv Batra教授密切合作。
高劍峰
#高劍峰是微軟研究院的傑出科學家和副總裁,IEEE會員,以及ACM傑出會員。
目前,高劍峰領導深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用,並在對話模型和方法方面取得進展。
研究主要包括,用於自然語言理解和產生的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智慧等等。
2014年到2018年,高劍峰在微軟人工智慧與研究部和Redmond微軟研究院的深度學習技術中心(DLTC)擔任商業人工智慧的合作夥伴研究經理。 2006年到2014年,高劍峰在自然語言處理組擔任首席研究員。
Yong Jae Lee
#Lee是華盛頓大學麥迪遜分校計算機科學系的副教授。
他在2021年秋天加入華盛頓大學麥迪遜分校之前,曾在Cruise擔任過一年的人工智慧客座教師,在此之前,他在加州大學戴維斯分校擔任了6年的助理和副教授。
他也曾在卡內基美隆大學的機器人研究所當了一年的博士後研究員。
###他於2012年5月在德州大學奧斯汀分校獲得博士學位,師從Kristen Grauman,並於2006年5月在伊利諾大學厄巴納-香檳分校獲得學士學位。 ############他也曾以微軟研究院的暑期實習生與Larry Zitnick和Michael Cohen一起工作。 ######目前,Lee的研究集中在電腦視覺和機器學習。 Lee對創建強大的視覺識別系統格外感興趣,該系統可以在最少的人類監督下理解視覺數據。
目前,SEEM已經開啟了示範demo:
#https://huggingface.co/spaces/xdecoder/SEEM
#快上手試試吧。
以上是華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」的詳細內容。更多資訊請關注PHP中文網其他相關文章!