搜尋
首頁科技週邊人工智慧VPR 2024 滿分論文! Meta提出EfficientSAM:快速分割一切!

EfficientSAM 這篇工作以5/5/5滿分收錄於CVPR 2024!作者在某社群媒體上分享了這個結果,如下圖所示:

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

#LeCun 圖靈獎得主也強烈推薦了這項工作!

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

在近期的研究中,Meta 研究者提出了一種新的改進方法,即使用SAM 的掩碼圖像預訓練(SAMI)。此方法結合了 MAE 預訓練技術和 SAM 模型,旨在實現高品質的預訓練 ViT 編碼器。透過 SAMI,研究者試圖提高模型的表現和效率,為視覺任務提供更好的解決方案。這項方法的提出為進一步探索和發展電腦視覺和深度學習領域帶來了新的思路和機會。透過結合不同的預訓練技術和模型結構,研究者們不斷


VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!


  • 論文連結:https://arxiv.org/pdf/2312.00863
  • 程式碼:github.com/yformer/ EfficientSAM
  • ##首頁:https://yformer.github.io/efficient-sam/

#此方法降低了SAM 的複雜性,同時能夠保持良好的效能。具體來說,SAMI 利用SAM 編碼器ViT-H 生成特徵嵌入,並用輕量級編碼器訓練遮罩圖像模型,從而從SAM 的ViT-H 而不是圖像補丁重建特徵,產生的通用ViT 骨幹可用於下游任務,如影像分類、物件偵測和分割等。然後,研究者利用 SAM 解碼器對預先訓練的輕量級編碼器進行微調,以完成任何分割任務。

為了驗證這種方法的有效性,研究人員使用了掩碼影像預先訓練的遷移學習設定。具體來說,他們首先在影像解析度為224×224的ImageNet資料集上,透過重構損失對模型進行了預訓練。隨後,他們利用目標任務的監督資料對模型進行微調。這種遷移學習方法可以幫助模型在新任務上快速學習並提高效能,因為模型已經透過預訓練階段學會了從原始資料中提取特徵。這種遷移學習策略有效地利用了在大規模資料集上學到的知識,使模型更容易適應不同的任務,同時

透過SAMI 預訓練,可以在ImageNet- 1K 上訓練ViT-Tiny/-Small/-Base 等模型,並提升泛化效能。對於 ViT-Small 模型,研究者在 ImageNet-1K 上進行 100 次微調後,其 Top-1 準確率達到 82.7%,優於其他最先進的影像預訓練基線。

研究者在目標偵測、實例分割和語意分割上對預訓練模型進行了微調。在所有這些任務中,本文方法都取得了比其他預訓練基線更好的結果,更重要的是在小模型上獲得了顯著效益。

論文作者Yunyang Xiong 表示:本文提出的EfficientSAM 參數減少了20 倍,但運行時間快了20 倍,只與原始SAM 模型的差距在2 個百分點以內,大大優於MobileSAM/FastSAM。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

在demo 示範中,點擊圖片中的動物,EfficientSAM 就能快速分割物件:

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 也能準確地標定圖片中的人:

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

試用網址:https: //ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含兩個階段:1)在ImageNet 上對SAMI 進行預訓練(上);2)在SA-1B 上微調SAM(下)。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

EfficientSAM 主要包含以下元件:

交叉注意力解碼器:在SAM 特徵的監督下,本文觀察到只有掩碼token 需要透過解碼器重建,而編碼器的輸出可以在重建過程中充當錨點(anchors)。在交叉注意力解碼器中,查詢來自於遮罩 token,鍵和值源自編碼器的未遮罩特徵和遮罩特徵。本文將來自交叉注意力解碼器遮罩 token 的輸出特徵和來自編碼器的未遮罩 token 的輸出特徵進行合併,以進行 MAE 輸出嵌入。然後,這些組合特徵將被重新排序到最終 MAE 輸出的輸入影像 token 的原始位置。

線性投影頭。研究者透過編碼器和交叉注意力解碼器所獲得的影像輸出,接下來將這些特徵輸入到一個小型專案頭(project head)中,以對齊 SAM 影像編碼器中的特徵。為簡單起見,本文僅使用線性投影頭來解決 SAM 影像編碼器和 MAE 輸出之間的特徵維度不匹配問題。

重建損失。在每次訓練迭代中,SAMI 包括來自 SAM 影像編碼器的前向特徵提取以及 MAE 的前向和反向傳播過程。來自 SAM 影像編碼器和 MAE 線性投影頭的輸出會進行比較,從而計算重建損失。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

經過預訓練,編碼器可以對各種視覺任務的特徵表示進行提取,而且解碼器也會被廢棄。特別是,為了建構用於分割任何任務的高效SAM 模型,本文採用SAMI 預訓練的輕量級編碼器(例如ViT-Tiny 和ViT-Small)作為EfficientSAM 的圖像編碼器和SAM 的預設掩碼解碼器,如圖所示2(底部)。本文在 SA-1B 資料集上對 EfficientSAM 模型進行微調,以實現分割任何任務。

實驗

#圖片分類。為了評估本文方法在影像分類任務上的有效性,研究者將 SAMI 想法應用於 ViT 模型,並比較它們在 ImageNet-1K 上的表現。

如表 1 將 SAMI 與 MAE、iBOT、CAE 和 BEiT 等預訓練方法以及 DeiT 和 SSTA 等蒸餾方法進行了比較。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

SAMI-B 的 top1 準確率達到 84.8%,比預訓練基準、MAE、DMAE、iBOT、CAE 和 BEiT 都高。與 DeiT 和 SSTA 等蒸餾方法相比,SAMI 也顯示出較大的改進。對於 ViT-Tiny 和 ViT-Small 等輕量級模型,SAMI 結果與 DeiT、SSTA、DMAE 和 MAE 相比有顯著的增益。

目標偵測與實例分割。本文也將經過 SAMI 預訓練的 ViT 主幹擴展到下游目標偵測和實例分割任務上,並將其與在 COCO 資料集上經過預訓練的基線進行比較。如表 2 所示, SAMI 始終優於其他基線的效能。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

這些實驗結果表明,SAMI 在目標偵測和實例分割任務中所提供的預訓練偵測器主幹非常有效。

語意分割。本文進一步將預訓練主幹擴展到語意分割任務,以評估其有效性。結果如表 3 所示,使用 SAMI 預訓練主幹網的 Mask2former 在 ImageNet-1K 上比使用 MAE 預訓練的主幹網實現了更好的 mIoU。這些實驗結果驗證了本文提出的技術可以很好地泛化到各種下游任務。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

表 4 比較 EfficientSAMs 與 SAM、MobileSAM 和 SAM-MAE-Ti 進行比較。在 COCO 上,EfficientSAM-Ti 的效能優於 MobileSAM。 EfficientSAM-Ti 具有 SAMI 預訓練權重,也比 MAE 預訓練權重表現更好。 

#

此外, EfficientSAM-S 在 COCO box 僅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,參數減少了 20 倍。本文也發現,與 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次點擊(multiple click)方面也展現了良好的效能。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

表 5 展示了零樣本實例分割的 AP、APS、APM 和 APL。研究者將 EfficientSAM 與 MobileSAM 和 FastSAM 進行了比較,可以看到,與 FastSAM 相比,EfficientSAM-S 在 COCO 上獲得了超過 6.5 個 AP,在 LVIS 上獲得了 7.8 個 AP。就 EffidientSAM-Ti 而言,仍然遠遠優於 FastSAM,在 COCO 上為 4.1 個 AP,在 LVIS 上為 5.3 個 AP,而 MobileSAM 在 COCO 上為 3.6 個 AP,在 LVIS 上為 5.5 個 AP。

而且,EfficientSAM 比 FastSAM 輕得多,efficientSAM-Ti 的參數為 9.8M,而 FastSAM 的參數為 68M。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

圖 3、4、5 提供了一些定性結果,以便讀者對 EfficientSAMs 的實例分割能力有一個補充性了解。

VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!


VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!

更多研究細節,可參考原論文。 #########

以上是VPR 2024 滿分論文! Meta提出EfficientSAM:快速分割一切!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。