首頁 >科技週邊 >人工智慧 >Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

王林
王林轉載
2023-04-07 15:00:04968瀏覽

就在剛剛,Meta AI發布了Segment Anything Model(SAM)-第一個影像分割基礎模型。

SAM能從照片或影片中對任意物件實現一鍵分割,並且能夠零樣本遷移到其他任務。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

整體而言,SAM遵循了基礎模型的思路:

1. 一種非常簡單但可擴展的架構,可以處理多模態提示:文字、關鍵點、邊界框。

2. 直覺的標註流程,與模型設計緊密相連。

3. 一個資料飛輪,允許模型自舉到大量未標記的圖像。

而且,毫不誇張地說,SAM已經學會了「物體」的一般概念,甚至對於未知物體、不熟悉的場景(例如水下和顯微鏡下)以及模糊的案例也是如此。

此外,SAM也能夠泛化到新任務和新領域,從業人員並不需要自己微調模型了。

論文網址:https://ai.facebook.com/research/publications/segment-anything/

# #最強大的是,Meta實作了一個完全不同的CV範式,你可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,直接一鍵分割出物體。

對此,騰訊AI演算法專家金天表示,「NLP領域的prompt範式,已經開始延展到CV領域了。而這一次,可能徹底改變CV傳統的預測思路。這一下你可以真的可以用一個模型,來分割任意物體,並且是動態的!」

英偉達AI科學家Jim Fan對此更是讚歎道:我們已經來到了電腦視覺領域的「GPT-3時刻」!

所以,CV真的不存在了?

SAM:一鍵「切出」任何影像中的所有物件

#Segment Anything是致力於影像分割的第一個基礎模型。

分割(Segmentation)是指辨識哪些影像像素屬於一個對象,一直是電腦視覺的核心任務。

但是,如果想為特定任務創建準確的分割模型,通常需要專家進行高度專業化的工作,這個過程需要訓練AI的基礎設施,和大量仔細標註的域內數據,因此門檻極高。

為了解決這個問題,Meta提出了一個影像分割的基礎模型-SAM。這個接受了多樣化資料訓練的可提示模型,不僅能適應各種任務,操作起來也類似於在NLP模型中使用提示的方式。

SAM模型掌握了「什麼是物件」這個概念,可以為任何影像或影片中的任何物件產生掩碼,即使是它在訓練中沒有見過的物件。

SAM具有如此廣泛的通用性,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用於新的圖像領域,無論是水下照片,還是細胞顯微鏡。也即是說,SAM已經具有了零樣本遷移的能力。

Meta在部落格中興奮地表示:可以預計,在未來,在任何需要在圖像中尋找和分割物件的應用中,都有SAM的用武之地。

SAM可以成為更大的AI系統的一部分,對世界進行更通用的多模態理解,例如,理解網頁的視覺和文字內容。

在AR/VR領域,SAM可以依照使用者的視線選擇對象,然後把對象「提升」為 3D。

對於內容創作者,SAM可以擷取影像區域進行拼貼,或影片編輯。

SAM還可以在影片中定位、追蹤動物或物體,有助於自然科學和天文學研究。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

通用的分割方法

#在先前,解決分割問題有兩種方法。

一種是互動式分割,可以分割任何類別的對象,但需要一個人透過迭代微調遮罩。

第二種是自動分割,可以分割事先定義的特定對象,但訓練過程需要大量的手動標註對象(例如要分割出貓,就需要成千上萬個例子)。

總之,這兩種方式都無法提供通用、全自動的分割方法。

而SAM可以看作這兩種方法的概括,它可以輕鬆執行互動式分割和自動分割。

在模型的可提示介面上,只要為模型設計正確的提示(點擊、方塊、文字等),就可以完成廣泛的分割任務。

另外,SAM在包含超過10億個遮罩的多樣化、高品質資料集上進行訓練,使得模型能夠泛化到新的物件和影像,超越其在訓練期間觀察到的內容。因此,從業者不再需要收集自己的細分數據,為用例微調模型了。

這種能夠泛化到新任務和新領域的彈性,在影像分割領域尚屬首次。

(1) SAM 允許使用者透過點擊一下,或互動式點擊許多點,來分割對象,也可以使用邊界框提示模型。

(2) 在面對被分割物件的歧義時,SAM可以輸出多個有效掩碼,這是解決現實世界中分割問題的必備能力。

(3) SAM 可以自動發現、屏蔽影像中的所有物件。 (4) 在預計算影像嵌入後,SAM可以即時為任何提示產生分割掩碼,允許使用者與模型進行即時互動。

工作原理

研究人員訓練的SAM可以針對任何提示傳回有效的分割遮罩。提示可以是前景/背景點、粗略的框或掩碼、自由形式的文本,或總體上任何指示圖像中需要分割的資訊。

有效遮罩的要求僅僅意味著即使在提示模糊且可能指涉多個物件的情況下(例如,襯衫上的一個點可能表示襯衫或穿襯衫的人) ,輸出應該是其中一個物件的合理遮罩。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

研究人員觀察到,預訓練任務和互動式資料收集對模型設計施加了特定的約束。

特別是,此模型需要在網頁瀏覽器中CPU上即時運行,以便讓標準人員能夠有效率地即時與SAM互動進行標註。

雖然運行時間的約束,意味著品質與運行時間之間需要權衡,但研究人員發現,在實踐中,簡單的設計可以取得良好的效果。

SAM的影像編碼器為影像產生一次性嵌入,而輕量級解碼器將任何提示即時轉換為向量嵌入。然後將這兩個資訊來源在一個預測分割遮罩的輕量級解碼器中結合起來。

在計算出影像嵌入之後,SAM可以在短短50毫秒內產生一段影像,並在網頁瀏覽器中給出任何提示。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

最新SAM模型在256張A100訓練了68小時(近5天)完成。


#

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

專案示範

多種輸入提示

#在影像中指定要分割的內容的提示,可以實現各種分割任務,而無需額外的訓練。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

#以互動點和方框作為提示


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

##自動分割影像中的所有元素


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式#為模稜兩可的提示產生多個有效的遮罩

可提示的設計

SAM可以接受來自其他系統的輸入提示。

例如,根據AR/VR頭顯傳來的使用者視覺焦點訊息,來選擇對應的物體。 Meta透過發展可以理解現實世界的AI,恰恰為它未來元宇宙之路鋪路。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

或者,利用物件偵測器的邊界框提示,實現文字到物件的分割。

可擴展的輸出

輸出遮罩可以作為其他AI系統的輸入。


例如,物體的mask可以在影片中被跟踪,透過成像編輯應用程序,變成3D,或用於拼貼等創造性任務。 Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式


零樣本的泛化

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SAM學會了關於物體是什麼的一般概念——這種理解使其能夠對不熟悉的物體和圖像進行零樣本概括,而不需要額外訓練。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

############## ################各種評測############選擇Hover&Click,點Add Mask後就出現綠點,點Remove Area後出現紅點,吃蘋果的花花立刻就被圈出來了。 #####################而在Box功能中,簡單框選一下,就立刻完成辨識。 ######

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

點Everything後,所有系統辨識出的物件立刻全部被提取出來。

選Cut-Outs後,秒得一個三角團子。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SA-1B資料集:1100萬張影像,11億個掩碼

除了發布的新模型,Meta也發布了迄今為止最大的分割資料集SA-1B。

這個資料集由1,100萬張多樣化、高解析度、保護隱私的影像,以及11億個高品質分割遮罩組成。

資料集的整體特性如下:

#· 圖像總數: 1100萬

·遮罩總數: 11億

· 每張影像的平均遮罩: 100

· 平均影像解析度: 1500 × 2250 pixels

注意:影像或遮罩標註沒有類別標籤

#Meta特別強調,這些資料是透過我們的資料引擎收集的,所有遮罩均由SAM完全自動產生。

有了SAM模型,收集新的分割遮罩的速度比以往任何時候都快,互動式標註一個遮罩只需要大約14秒。

每個遮罩標註過程只比標註邊界框慢2倍,使用最快的標註介面,標註邊界框大約需要7秒。

與先前的大規模分割資料收集工作相比,SAM模型COCO完全手動的基於多邊形的掩碼標註快6.5倍,比以前最大的資料標註工作(也是模型輔助)快2倍。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

然而,依賴互動式標註掩碼並不足以創建10億多個掩碼數據集。因此,Meta建構了一個用於創建SA-1B資料集的資料引擎。

這個資料引擎有三個「齒輪」:

1.模型輔助標註

2. 全自動標註與輔助標註的混合,有助於增加收集到的遮罩的多樣性

3. 全自動遮罩創建,使資料集能夠擴展

我們的最終資料集包括超過11億個分割掩碼,這些遮罩收集在大約1,100萬張授權和保護隱私的影像上。

SA-1B比任何現有的分割資料集多出400倍的遮罩。並且透過人類評估研究證實,遮罩具有高品質和多樣性,在某些情況下,甚至在品質上可與先前規模更小、完全手動標註資料集的遮罩相媲美。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SA-1B的圖片是透過來自多個國家/地區的照片提供者取得的,這些國家跨越不同的地理區域和收入水平。

雖然某些地理區域仍然代表性不足,但SA-1B比以前的分割資料集在所有地區都有更多的圖像和更好的整體代表性。

最後,Meta稱希望這些資料可以成為新資料集的基礎,這些資料集包含額外的標註,例如與每個遮罩相關聯的文字描述。

RBG大神帶隊

Ross Girshick


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Ross Girshick(常被稱為RBG大神)是Facebook人工智慧研究院(FAIR)的研究科學家,他致力於電腦視覺和機器學習的研究。

2012年,Ross Girshick在Pedro Felzenszwalb的指導下獲得了芝加哥大學的電腦科學博士學位。

在加入FAIR之前,Ross是微軟研究院的研究員,也是加州大學柏克萊分校的博士後,在那裡他的導師是Jitendra Malik和Trevor Darrell。

他獲得了2017年的PAMI青年研究員獎,2017年和2021年的PAMI Mark Everingham獎,以表彰他對開源軟體的貢獻。

眾所周知,Ross和何愷明大神一起開發了R-CNN方法的目標偵測演算法。 2017年,Ross和何愷明大神的Mask R-CNN論文獲得了ICCV 2017最佳論文。

網友:CV真不存在了

Meta所打造的這款CV領域的分割基礎模型,讓許多網友高喊「這下,CV是真不存在了。」

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Meta科學家Justin Johnson表示:「對我來說,Segment Anything的資料引擎和ChatGPT的RLHF代表了大規模人工智慧的新時代。與其從嘈雜的網路數據中學習一切,不如巧妙地應用人類標註與大數據相結合,以釋放新的能力。監督學習強勢回歸!」


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

唯一遺憾的是,SAM模型發布主要是由Ross Girshick帶隊,何愷明卻缺席了。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

#知友「matrix明仔」表示,這篇文章進一步證明多模態才是CV的未來,純CV是沒有明天的。

以上是Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除