搜尋
首頁科技週邊人工智慧Meta發布多用途大模型開源,協助離視覺大一統更進一步

在開源了「分割一切」的 SAM 模型後,Meta 在「視覺基礎模型」的路上越走越遠。

這次,他們開源的是一組名叫 DINOv2 的模型。這些模型能產生高效能的視覺表徵,無需微調就能用於分類、分割、影像檢索、深度估計等下游任務。

Meta發布多用途大模型開源,協助離視覺大一統更進一步

這組模型具有以下特徵:


  • 使用自監督的方式進行訓練,而不需要大量的標記資料;
  • 可以用作幾乎所有CV 任務的骨幹,不需要微調,如圖像分類、分割、圖像檢索和深度估計;
  • 直接從圖像中學習特徵,而不依賴文字描述,這可以使模型更好地理解局部資訊;
  • 可以從任何影像集合中學習;
  • DINOv2 的預訓練版本已經可用,並且可以在一系列任務上媲美CLIP 和OpenCLIP。

Meta發布多用途大模型開源,協助離視覺大一統更進一步

  • 論文連結:https://arxiv.org/pdf/2304.07193.pdf
  • #計畫連結:https://dinov2.metademolab.com/

論文概覽

學習非特定任務的預訓練表示已成為自然語言處理的標準。大家可以「照原樣」使用這些功能(無需微調),而且它們在下游任務上的表現明顯優於特定任務模型的表現。這一成功得益於使用輔助目標對大量原始文本進行預先訓練,例如語言建模或詞向量,這些不需要監督。

隨著 NLP 領域發生這種範式轉變,預計類似的「基礎」模型將出現在電腦視覺中。這些模型應該產生在任何任務上「開箱即用」的視覺特徵,無論是在影像層級(例如影像分類)還是像素層級(例如分割)。

這些基礎模型有很大希望可以集中在文本引導(text-guided)的預訓練上,即使用一種文本監督的形式來指導特徵的訓練。這種形式的文字引導預訓練限制了可以保留的有關圖像的信息,因為標題僅近似於圖像中的豐富信息,並且更精細、複雜的像素級信息可能無法通過此監督被發現。此外,這些圖像編碼器需要已經對齊好的文字 - 圖像語料庫,不能提供其文字對應物的靈活性,也就是說不能只從原始資料中學習。

文字引導預訓練的替代方法是自監督學習,其中特徵僅從圖像中學習。這些方法在概念上更接近語言建模等前置任務,並且可以在影像和像素層級擷取資訊。然而,儘管它們有可能去學習通用特徵,但自監督學習的大部分效果提升都是在小型精編資料集 ImageNet1k 的預訓練背景下取得的。一些研究人員已經嘗試將這些方法擴展到 ImageNet-1k 之外的一些努力,但他們專注於未經篩選的資料集,這通常會導致效能品質顯著下降。這是由於缺乏對數據品質和多樣性的控制,而數據品質和多樣性對於產生良好的結果至關重要。

在這項工作中,研究者探討瞭如果在大量精編資料上進行預訓練,自監督學習是否有可能去學習通用的視覺特徵。它們重新審視了現有的在圖像和 patch 層級學習特徵的判別性自監督方法,例如 iBOT,並在更大資料集下重新考慮他們的一些設計選擇。研究者的大多數技術貢獻都是為了在擴展模型和資料大小時穩定和加速判別性自監督學習而量身定制的。這些改進使他們方法的速度提升到了類似的判別性自監督方法的 2 倍左右,需要的內存減少到了後者的 1/3,使他們能夠利用更長的訓練和更大的 batch size。

關於預訓練數據,他們建立了一個自動 pipeline ,用於從大量未經篩選的圖像集合中過濾和重新平衡數據集。這個靈感來自 NLP 中使用的 pipeline ,其中使用數據相似性而不是外部元數據,並且不需要手動註釋。在處理影像時的一個主要困難是重新平衡概念並且避免在一些主導模式下出現過度擬合。在這項工作中,樸素聚類方法可以很好地解決這個問題,研究人員收集了一個由 142M 圖像組成的小而多樣化的語料庫來驗證他們的方法。

最後,研究者提供了各種預先訓練的視覺模型,稱為 DINOv2,在他們的資料上使用不同的視覺 Transformer(ViT)架構進行訓練。他們發布了所有模型和程式碼,以在任何資料上重新訓練 DINOv2。在擴展時,他們在影像和像素層級的各種電腦視覺基準測試上驗證了 DINOv2 的質量,如圖 2 所示。最後研究者得出結論,單獨的自監督預訓練是學習可遷移凍結特徵的良好候選者,可媲美最好的公開可用的弱監督模型。

資料處理

研究者透過從大量未篩選的資料中檢索與多個精編資料集中的影像接近的影像來組裝他們的精編LVD -142M 資料集。他們在論文中介紹了資料管道中的主要組成部分,包括精選 / 未篩選的資料來源、影像重複資料刪除步驟和檢索系統。整個 pipeline 不需要任何元資料或文本,直接處理圖像,如圖 3 所示。請讀者參閱附錄 A,以了解有關模型方法的更多詳細資訊。

Meta發布多用途大模型開源,協助離視覺大一統更進一步

圖 3:資料處理的 pipeline 概述。來自精編和非精編的資料來源的圖像首先被映射到嵌入。然後,非精編的圖像在與標準圖像匹配之前對重複資料刪除。由此產生的組合透過自監督檢索系統進一步豐富擴充了初始資料集。

判別性自監督預訓練

研究人員透過一種判別性的自監督方法學習他們的特徵,該方法可以看作是DINO 和iBOT 損失的結合,並以SwAV 為中心。他們還添加了一個正則化器來傳播特徵和一個簡短的高解析度訓練階段。

高效實現

他們考慮了幾項改進,以在更大範圍內訓練模型。使用 PyTorch 2.0 在 A100 GPU 上訓練模型,該程式碼也可與用於特徵擷取的預訓練模型一起使用。模型的詳細資訊在附錄表 17 中。在相同的硬體下,與 iBOT 實作相比,DINOv2 程式碼僅使用 1/3 的內存,運行速度提高到了前者的 2 倍。

Meta發布多用途大模型開源,協助離視覺大一統更進一步

實驗結果

在本節中,研究者將介紹新模型在許多圖像理解任務上的實證評估。他們評估了全局和局部影像表示,包括類別和實例級識別、語義分割、單目深度預測和動作識別。

ImageNet 分類

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

#其他圖像和影片分類基準

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

#實例識別

Meta發布多用途大模型開源,協助離視覺大一統更進一步

#密集辨識任務

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

定性結果

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

Meta發布多用途大模型開源,協助離視覺大一統更進一步

#

以上是Meta發布多用途大模型開源,協助離視覺大一統更進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能