搜尋
首頁科技週邊人工智慧Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

就在剛剛,Meta AI發布了Segment Anything Model(SAM)-第一個影像分割基礎模型。

SAM能從照片或影片中對任意物件實現一鍵分割,並且能夠零樣本遷移到其他任務。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

整體而言,SAM遵循了基礎模型的思路:

1. 一種非常簡單但可擴展的架構,可以處理多模態提示:文字、關鍵點、邊界框。

2. 直覺的標註流程,與模型設計緊密相連。

3. 一個資料飛輪,允許模型自舉到大量未標記的圖像。

而且,毫不誇張地說,SAM已經學會了「物體」的一般概念,甚至對於未知物體、不熟悉的場景(例如水下和顯微鏡下)以及模糊的案例也是如此。

此外,SAM也能夠泛化到新任務和新領域,從業人員並不需要自己微調模型了。

論文網址:https://ai.facebook.com/research/publications/segment-anything/

# #最強大的是,Meta實作了一個完全不同的CV範式,你可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,直接一鍵分割出物體。

對此,騰訊AI演算法專家金天表示,「NLP領域的prompt範式,已經開始延展到CV領域了。而這一次,可能徹底改變CV傳統的預測思路。這一下你可以真的可以用一個模型,來分割任意物體,並且是動態的!」

英偉達AI科學家Jim Fan對此更是讚歎道:我們已經來到了電腦視覺領域的「GPT-3時刻」!

所以,CV真的不存在了?

SAM:一鍵「切出」任何影像中的所有物件

#Segment Anything是致力於影像分割的第一個基礎模型。

分割(Segmentation)是指辨識哪些影像像素屬於一個對象,一直是電腦視覺的核心任務。

但是,如果想為特定任務創建準確的分割模型,通常需要專家進行高度專業化的工作,這個過程需要訓練AI的基礎設施,和大量仔細標註的域內數據,因此門檻極高。

為了解決這個問題,Meta提出了一個影像分割的基礎模型-SAM。這個接受了多樣化資料訓練的可提示模型,不僅能適應各種任務,操作起來也類似於在NLP模型中使用提示的方式。

SAM模型掌握了「什麼是物件」這個概念,可以為任何影像或影片中的任何物件產生掩碼,即使是它在訓練中沒有見過的物件。

SAM具有如此廣泛的通用性,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用於新的圖像領域,無論是水下照片,還是細胞顯微鏡。也即是說,SAM已經具有了零樣本遷移的能力。

Meta在部落格中興奮地表示:可以預計,在未來,在任何需要在圖像中尋找和分割物件的應用中,都有SAM的用武之地。

SAM可以成為更大的AI系統的一部分,對世界進行更通用的多模態理解,例如,理解網頁的視覺和文字內容。

在AR/VR領域,SAM可以依照使用者的視線選擇對象,然後把對象「提升」為 3D。

對於內容創作者,SAM可以擷取影像區域進行拼貼,或影片編輯。

SAM還可以在影片中定位、追蹤動物或物體,有助於自然科學和天文學研究。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

通用的分割方法

#在先前,解決分割問題有兩種方法。

一種是互動式分割,可以分割任何類別的對象,但需要一個人透過迭代微調遮罩。

第二種是自動分割,可以分割事先定義的特定對象,但訓練過程需要大量的手動標註對象(例如要分割出貓,就需要成千上萬個例子)。

總之,這兩種方式都無法提供通用、全自動的分割方法。

而SAM可以看作這兩種方法的概括,它可以輕鬆執行互動式分割和自動分割。

在模型的可提示介面上,只要為模型設計正確的提示(點擊、方塊、文字等),就可以完成廣泛的分割任務。

另外,SAM在包含超過10億個遮罩的多樣化、高品質資料集上進行訓練,使得模型能夠泛化到新的物件和影像,超越其在訓練期間觀察到的內容。因此,從業者不再需要收集自己的細分數據,為用例微調模型了。

這種能夠泛化到新任務和新領域的彈性,在影像分割領域尚屬首次。

(1) SAM 允許使用者透過點擊一下,或互動式點擊許多點,來分割對象,也可以使用邊界框提示模型。

(2) 在面對被分割物件的歧義時,SAM可以輸出多個有效掩碼,這是解決現實世界中分割問題的必備能力。

(3) SAM 可以自動發現、屏蔽影像中的所有物件。 (4) 在預計算影像嵌入後,SAM可以即時為任何提示產生分割掩碼,允許使用者與模型進行即時互動。

工作原理

研究人員訓練的SAM可以針對任何提示傳回有效的分割遮罩。提示可以是前景/背景點、粗略的框或掩碼、自由形式的文本,或總體上任何指示圖像中需要分割的資訊。

有效遮罩的要求僅僅意味著即使在提示模糊且可能指涉多個物件的情況下(例如,襯衫上的一個點可能表示襯衫或穿襯衫的人) ,輸出應該是其中一個物件的合理遮罩。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

研究人員觀察到,預訓練任務和互動式資料收集對模型設計施加了特定的約束。

特別是,此模型需要在網頁瀏覽器中CPU上即時運行,以便讓標準人員能夠有效率地即時與SAM互動進行標註。

雖然運行時間的約束,意味著品質與運行時間之間需要權衡,但研究人員發現,在實踐中,簡單的設計可以取得良好的效果。

SAM的影像編碼器為影像產生一次性嵌入,而輕量級解碼器將任何提示即時轉換為向量嵌入。然後將這兩個資訊來源在一個預測分割遮罩的輕量級解碼器中結合起來。

在計算出影像嵌入之後,SAM可以在短短50毫秒內產生一段影像,並在網頁瀏覽器中給出任何提示。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

最新SAM模型在256張A100訓練了68小時(近5天)完成。


#

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

專案示範

多種輸入提示

#在影像中指定要分割的內容的提示,可以實現各種分割任務,而無需額外的訓練。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

#以互動點和方框作為提示


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

##自動分割影像中的所有元素


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式#為模稜兩可的提示產生多個有效的遮罩

可提示的設計

SAM可以接受來自其他系統的輸入提示。

例如,根據AR/VR頭顯傳來的使用者視覺焦點訊息,來選擇對應的物體。 Meta透過發展可以理解現實世界的AI,恰恰為它未來元宇宙之路鋪路。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

或者,利用物件偵測器的邊界框提示,實現文字到物件的分割。

可擴展的輸出

輸出遮罩可以作為其他AI系統的輸入。


例如,物體的mask可以在影片中被跟踪,透過成像編輯應用程序,變成3D,或用於拼貼等創造性任務。 Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式


零樣本的泛化

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SAM學會了關於物體是什麼的一般概念——這種理解使其能夠對不熟悉的物體和圖像進行零樣本概括,而不需要額外訓練。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

############## ################各種評測############選擇Hover&Click,點Add Mask後就出現綠點,點Remove Area後出現紅點,吃蘋果的花花立刻就被圈出來了。 #####################而在Box功能中,簡單框選一下,就立刻完成辨識。 ######

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

點Everything後,所有系統辨識出的物件立刻全部被提取出來。

選Cut-Outs後,秒得一個三角團子。

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SA-1B資料集:1100萬張影像,11億個掩碼

除了發布的新模型,Meta也發布了迄今為止最大的分割資料集SA-1B。

這個資料集由1,100萬張多樣化、高解析度、保護隱私的影像,以及11億個高品質分割遮罩組成。

資料集的整體特性如下:

#· 圖像總數: 1100萬

·遮罩總數: 11億

· 每張影像的平均遮罩: 100

· 平均影像解析度: 1500 × 2250 pixels

注意:影像或遮罩標註沒有類別標籤

#Meta特別強調,這些資料是透過我們的資料引擎收集的,所有遮罩均由SAM完全自動產生。

有了SAM模型,收集新的分割遮罩的速度比以往任何時候都快,互動式標註一個遮罩只需要大約14秒。

每個遮罩標註過程只比標註邊界框慢2倍,使用最快的標註介面,標註邊界框大約需要7秒。

與先前的大規模分割資料收集工作相比,SAM模型COCO完全手動的基於多邊形的掩碼標註快6.5倍,比以前最大的資料標註工作(也是模型輔助)快2倍。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

然而,依賴互動式標註掩碼並不足以創建10億多個掩碼數據集。因此,Meta建構了一個用於創建SA-1B資料集的資料引擎。

這個資料引擎有三個「齒輪」:

1.模型輔助標註

2. 全自動標註與輔助標註的混合,有助於增加收集到的遮罩的多樣性

3. 全自動遮罩創建,使資料集能夠擴展

我們的最終資料集包括超過11億個分割掩碼,這些遮罩收集在大約1,100萬張授權和保護隱私的影像上。

SA-1B比任何現有的分割資料集多出400倍的遮罩。並且透過人類評估研究證實,遮罩具有高品質和多樣性,在某些情況下,甚至在品質上可與先前規模更小、完全手動標註資料集的遮罩相媲美。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

SA-1B的圖片是透過來自多個國家/地區的照片提供者取得的,這些國家跨越不同的地理區域和收入水平。

雖然某些地理區域仍然代表性不足,但SA-1B比以前的分割資料集在所有地區都有更多的圖像和更好的整體代表性。

最後,Meta稱希望這些資料可以成為新資料集的基礎,這些資料集包含額外的標註,例如與每個遮罩相關聯的文字描述。

RBG大神帶隊

Ross Girshick


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Ross Girshick(常被稱為RBG大神)是Facebook人工智慧研究院(FAIR)的研究科學家,他致力於電腦視覺和機器學習的研究。

2012年,Ross Girshick在Pedro Felzenszwalb的指導下獲得了芝加哥大學的電腦科學博士學位。

在加入FAIR之前,Ross是微軟研究院的研究員,也是加州大學柏克萊分校的博士後,在那裡他的導師是Jitendra Malik和Trevor Darrell。

他獲得了2017年的PAMI青年研究員獎,2017年和2021年的PAMI Mark Everingham獎,以表彰他對開源軟體的貢獻。

眾所周知,Ross和何愷明大神一起開發了R-CNN方法的目標偵測演算法。 2017年,Ross和何愷明大神的Mask R-CNN論文獲得了ICCV 2017最佳論文。

網友:CV真不存在了

Meta所打造的這款CV領域的分割基礎模型,讓許多網友高喊「這下,CV是真不存在了。」

Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

Meta科學家Justin Johnson表示:「對我來說,Segment Anything的資料引擎和ChatGPT的RLHF代表了大規模人工智慧的新時代。與其從嘈雜的網路數據中學習一切,不如巧妙地應用人類標註與大數據相結合,以釋放新的能力。監督學習強勢回歸!」


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

唯一遺憾的是,SAM模型發布主要是由Ross Girshick帶隊,何愷明卻缺席了。


Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式

#知友「matrix明仔」表示,這篇文章進一步證明多模態才是CV的未來,純CV是沒有明天的。

以上是Prompt一鍵摳圖! Meta發布史上首個影像分割基礎模型,開創CV新範式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能