目前的多模態和多任務基礎模型,如 **4M** 或 **UnifiedIO**,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。
,基於此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個**先進的**任意到任意模態單一模型,該模型在數十種**廣泛**多樣化的模態上進行訓練,並對大規模多模態資料集和文字語料庫進行協同訓練。
訓練過程中一個關鍵步驟是對各種模態執行離散**tokenization**,無論它們是類似圖像的神經網路**feature map**、向量、實例分割或人體姿態等結構化數據,還是可以表徵為文本的數據。
論文地址:https://arxiv.org/pdf/2406.09406
論文主頁https://4m.epfl.ch/
- -to-Any Vision Model for Tens of Tasks and Modalities
- 模態:從現有最佳任意到任意模型的7 種模態增加到21 種不同模態,從而實現跨模態檢索、可控生成和強大的開箱即用性能。這是第一次單一視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害性能,並且沒有任何傳統的多任務學習。
- 多樣性:增加對更多結構化資料的支持,例如人體姿態、SAM 實例、元資料等等。
- tokenization:使用特定於模態的方法研究不同模態的離散 tokenization,例如全域影像嵌入、人體姿態和語義實例。
- 擴展:將模型大小擴展至 3B 參數,將資料集擴展至 0.5B 樣本。
- 協同訓練:同時在視覺和語言上協同訓練。
方法介紹
該研究採用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發布),其被證明是一種通用方法,可以有效擴展到多模態。 具體而言,本文保持架構和多模態掩碼訓練目標不變,透過擴大模型和資料集的規模、增加訓練模型所涉及的模態類型和數量,並且在多個資料集上進行聯合訓練,可以提升模型的表現和適應性。 模態分為以下幾大類別:RGB、幾何、語意、邊緣、特徵圖、元資料和文本,如下圖所示。Tokenization
Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態,如圖 3 所示。總而言之,本文採用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。實驗結果
接下來,論文展示了 4M-21 多模態能力。多模態生成
基於迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式產生所有模態。多模態檢索
如圖5 所示,4M-21 解鎖了原始DINOv2 和ImageBind 模型無法實現的檢索功能,例如透過使用其他模態作為查詢來檢索RGB 影像或其他模態。此外,4M-21 還可以組合多種模態來預測全域嵌入,從而更好地控制檢索,如右圖所示。
開箱即用
4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。
表 1 評估了 DIODE 表面法線和深度估計、COCO 語意和實例分割、3DPW 3D 人體姿態估計等。
遷移實驗
此外,本文也訓練了三種不同尺寸的模型:B、L 和 XL。然後,將其編碼器遷移到下游任務,並在單模態 (RGB) 和多模態 (RGB + 深度) 設定上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:
最後,本文在 NYUv2、Hypersim 語意分割和 ARKitScenes 上的 3D 物件偵測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,並顯著改善了基準。
以上是太全了!蘋果上新視覺模型4M-21,搞定21種模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1
好用且免費的程式碼編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器