太全了！蘋果上新視覺模型4M-21，搞定21種模態-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

太全了！蘋果上新視覺模型4M-21，搞定21種模態

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 25, 2024 pm 05:17 PM

工程蘋果公司4M-21洛桑聯邦理工學院

目前的多模態和多任務基礎模型，如 **4M** 或 **UnifiedIO**，顯示出有希望的結果。然而，它們接受不同輸入和執行不同任務的開箱即用能力，受到它們接受訓練的模態和任務的數量（通常很少）的限制。

,基於此，來自洛桑聯邦理工學院（EPFL）和蘋果的研究者聯合開發了一個**先進的**任意到任意模態單一模型，該模型在數十種**廣泛**多樣化的模態上進行訓練，並對大規模多模態資料集和文字語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態執行離散**tokenization**，無論它們是類似圖像的神經網路**feature map**、向量、實例分割或人體姿態等結構化數據，還是可以表徵為文本的數據。

太全了！蘋果上新視覺模型4M-21，搞定21種模態

論文地址：https://arxiv.org/pdf/2406.09406
論文主頁https://4m.epfl.ch/
-to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型，也能完成現有模型至少**三倍**多的任務/ **模態**，並且不會損失性能。此外，該研究還實現了更細粒度和更可控的多**模態**生成能力。

該研究建立在多模態掩碼預訓練方案的基礎上，並透過在數十種高度多樣化的模態上進行訓練來提升**模型**能力。透過使用特定於模態的離散分詞器對其進行編碼，該研究實現了在不同模態上訓練單一統一**模型**。

簡單來說，該研究在幾個關鍵維度上擴展了現有模型的功能：

模態：從現有最佳任意到任意模型的7 種模態增加到21 種不同模態，從而實現跨模態檢索、可控生成和強大的開箱即用性能。這是第一次單一視覺模型可以以任意到任意的方式解決數十個不同的任務，而不會損害性能，並且沒有任何傳統的多任務學習。
多樣性：增加對更多結構化資料的支持，例如人體姿態、SAM 實例、元資料等等。
tokenization：使用特定於模態的方法研究不同模態的離散 tokenization，例如全域影像嵌入、人體姿態和語義實例。
擴展：將模型大小擴展至 3B 參數，將資料集擴展至 0.5B 樣本。
協同訓練：同時在視覺和語言上協同訓練。

方法介紹

該研究採用 4M 預訓練方案（該研究同樣來自 EPFL 和蘋果，在去年發布），其被證明是一種通用方法，可以有效擴展到多模態。

具體而言，本文保持架構和多模態掩碼訓練目標不變，透過擴大模型和資料集的規模、增加訓練模型所涉及的模態類型和數量，並且在多個資料集上進行聯合訓練，可以提升模型的表現和適應性。

模態分為以下幾大類別：RGB、幾何、語意、邊緣、特徵圖、元資料和文本，如下圖所示。

太全了！蘋果上新視覺模型4M-21，搞定21種模態

Tokenization

Tokenization 主要包括將不同模態和任務轉換為序列或離散 token，從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態，如圖 3 所示。總而言之，本文採用了三種 tokenizer，包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。

太全了！蘋果上新視覺模型4M-21，搞定21種模態