Meta發布多用途大模型開源，協助離視覺大一統更進一步-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Meta發布多用途大模型開源，協助離視覺大一統更進一步

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 07, 2023 pm 03:49 PM

視覺任務

在開源了「分割一切」的 SAM 模型後，Meta 在「視覺基礎模型」的路上越走越遠。

這次，他們開源的是一組名叫 DINOv2 的模型。這些模型能產生高效能的視覺表徵，無需微調就能用於分類、分割、影像檢索、深度估計等下游任務。

Meta發布多用途大模型開源，協助離視覺大一統更進一步

這組模型具有以下特徵：

使用自監督的方式進行訓練，而不需要大量的標記資料；
可以用作幾乎所有CV 任務的骨幹，不需要微調，如圖像分類、分割、圖像檢索和深度估計；
直接從圖像中學習特徵，而不依賴文字描述，這可以使模型更好地理解局部資訊；
可以從任何影像集合中學習；
DINOv2 的預訓練版本已經可用，並且可以在一系列任務上媲美CLIP 和OpenCLIP。

Meta發布多用途大模型開源，協助離視覺大一統更進一步

論文連結：https://arxiv.org/pdf/2304.07193.pdf
#計畫連結：https://dinov2.metademolab.com/

論文概覽

學習非特定任務的預訓練表示已成為自然語言處理的標準。大家可以「照原樣」使用這些功能（無需微調），而且它們在下游任務上的表現明顯優於特定任務模型的表現。這一成功得益於使用輔助目標對大量原始文本進行預先訓練，例如語言建模或詞向量，這些不需要監督。

隨著 NLP 領域發生這種範式轉變，預計類似的「基礎」模型將出現在電腦視覺中。這些模型應該產生在任何任務上「開箱即用」的視覺特徵，無論是在影像層級（例如影像分類）還是像素層級（例如分割）。

這些基礎模型有很大希望可以集中在文本引導（text-guided）的預訓練上，即使用一種文本監督的形式來指導特徵的訓練。這種形式的文字引導預訓練限制了可以保留的有關圖像的信息，因為標題僅近似於圖像中的豐富信息，並且更精細、複雜的像素級信息可能無法通過此監督被發現。此外，這些圖像編碼器需要已經對齊好的文字 - 圖像語料庫，不能提供其文字對應物的靈活性，也就是說不能只從原始資料中學習。

文字引導預訓練的替代方法是自監督學習，其中特徵僅從圖像中學習。這些方法在概念上更接近語言建模等前置任務，並且可以在影像和像素層級擷取資訊。然而，儘管它們有可能去學習通用特徵，但自監督學習的大部分效果提升都是在小型精編資料集 ImageNet1k 的預訓練背景下取得的。一些研究人員已經嘗試將這些方法擴展到 ImageNet-1k 之外的一些努力，但他們專注於未經篩選的資料集，這通常會導致效能品質顯著下降。這是由於缺乏對數據品質和多樣性的控制，而數據品質和多樣性對於產生良好的結果至關重要。

在這項工作中，研究者探討瞭如果在大量精編資料上進行預訓練，自監督學習是否有可能去學習通用的視覺特徵。它們重新審視了現有的在圖像和 patch 層級學習特徵的判別性自監督方法，例如 iBOT，並在更大資料集下重新考慮他們的一些設計選擇。研究者的大多數技術貢獻都是為了在擴展模型和資料大小時穩定和加速判別性自監督學習而量身定制的。這些改進使他們方法的速度提升到了類似的判別性自監督方法的 2 倍左右，需要的內存減少到了後者的 1/3，使他們能夠利用更長的訓練和更大的 batch size。

關於預訓練數據，他們建立了一個自動 pipeline ，用於從大量未經篩選的圖像集合中過濾和重新平衡數據集。這個靈感來自 NLP 中使用的 pipeline ，其中使用數據相似性而不是外部元數據，並且不需要手動註釋。在處理影像時的一個主要困難是重新平衡概念並且避免在一些主導模式下出現過度擬合。在這項工作中，樸素聚類方法可以很好地解決這個問題，研究人員收集了一個由 142M 圖像組成的小而多樣化的語料庫來驗證他們的方法。

最後，研究者提供了各種預先訓練的視覺模型，稱為 DINOv2，在他們的資料上使用不同的視覺 Transformer（ViT）架構進行訓練。他們發布了所有模型和程式碼，以在任何資料上重新訓練 DINOv2。在擴展時，他們在影像和像素層級的各種電腦視覺基準測試上驗證了 DINOv2 的質量，如圖 2 所示。最後研究者得出結論，單獨的自監督預訓練是學習可遷移凍結特徵的良好候選者，可媲美最好的公開可用的弱監督模型。

資料處理

研究者透過從大量未篩選的資料中檢索與多個精編資料集中的影像接近的影像來組裝他們的精編LVD -142M 資料集。他們在論文中介紹了資料管道中的主要組成部分，包括精選 / 未篩選的資料來源、影像重複資料刪除步驟和檢索系統。整個 pipeline 不需要任何元資料或文本，直接處理圖像，如圖 3 所示。請讀者參閱附錄 A，以了解有關模型方法的更多詳細資訊。

Meta發布多用途大模型開源，協助離視覺大一統更進一步

圖 3：資料處理的 pipeline 概述。來自精編和非精編的資料來源的圖像首先被映射到嵌入。然後，非精編的圖像在與標準圖像匹配之前對重複資料刪除。由此產生的組合透過自監督檢索系統進一步豐富擴充了初始資料集。

判別性自監督預訓練

研究人員透過一種判別性的自監督方法學習他們的特徵，該方法可以看作是DINO 和iBOT 損失的結合，並以SwAV 為中心。他們還添加了一個正則化器來傳播特徵和一個簡短的高解析度訓練階段。

高效實現

他們考慮了幾項改進，以在更大範圍內訓練模型。使用 PyTorch 2.0 在 A100 GPU 上訓練模型，該程式碼也可與用於特徵擷取的預訓練模型一起使用。模型的詳細資訊在附錄表 17 中。在相同的硬體下，與 iBOT 實作相比，DINOv2 程式碼僅使用 1/3 的內存，運行速度提高到了前者的 2 倍。

Meta發布多用途大模型開源，協助離視覺大一統更進一步