搜尋
首頁科技週邊人工智慧太全了!蘋果上新視覺模型4M-21,搞定21種模態

目前的多模態和多任務基礎模型,如 **4M** 或 **UnifiedIO**,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。

,基於此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個**先進的**任意到任意模態單一模型,該模型在數十種**廣泛**多樣化的模態上進行訓練,並對大規模多模態資料集和文字語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態執行離散**tokenization**,無論它們是類似圖像的神經網路**feature map**、向量、實例分割或人體姿態等結構化數據,還是可以表徵為文本的數據。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

  • 論文地址:https://arxiv.org/pdf/2406.09406

  • 論文主頁https://4m.epfl.ch/

  • -to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型,也能完成現有模型至少**三倍**多的任務/ **模態**,並且不會損失性能。此外,該研究還實現了更細粒度和更可控的多**模態**生成能力。

該研究建立在多模態掩碼預訓練方案的基礎上,並透過在數十種高度多樣化的模態上進行訓練來提升**模型**能力。透過使用特定於模態的離散分詞器對其進行編碼,該研究實現了在不同模態上訓練單一統一**模型**。

簡單來說,該研究在幾個關鍵維度上擴展了現有模型的功能:

  • 模態:從現有最佳任意到任意模型的7 種模態增加到21 種不同模態,從而實現跨模態檢索、可控生成和強大的開箱即用性能。這是第一次單一視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害性能,並且沒有任何傳統的多任務學習。

  • 多樣性:增加對更多結構化資料的支持,例如人體姿態、SAM 實例、元資料等等。 

  • tokenization:使用特定於模態的方法研究不同模態的離散 tokenization,例如全域影像嵌入、人體姿態和語義實例。

  • 擴展:將模型大小擴展至 3B 參數,將資料集擴展至 0.5B 樣本。 

  • 協同訓練:同時在視覺和語言上協同訓練。

方法介紹

該研究採用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發布),其被證明是一種通用方法,可以有效擴展到多模態。

具體而言,本文保持架構和多模態掩碼訓練目標不變,透過擴大模型和資料集的規模、增加訓練模型所涉及的模態類型和數量,並且在多個資料集上進行聯合訓練,可以提升模型的表現和適應性。

模態分為以下幾大類別:RGB、幾何、語意、邊緣、特徵圖、元資料和文本,如下圖所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

Tokenization

Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態,如圖 3 所示。總而言之,本文採用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

在架構選擇上,本文採用基於 Transformer 的 4M 編碼器 - 解碼器架構,並添加額外的模態嵌入以適應新模態。

實驗結果

接下來,論文展示了 4M-21 多模態能力。

多模態生成

基於迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式產生所有模態。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

此外,由於該研究可以有條件和無條件地從其他模態的任何子集生成任何訓練模態,因此它支持幾種方法來執行細粒度和多模態生成,如圖4 所示,例如執行多模態編輯。此外,4M-21 表現出改進的文本理解能力,無論是在 T5-XXL 嵌入上還是在常規字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

多模態檢索

如圖5 所示,4M-21 解鎖了原始DINOv2 和ImageBind 模型無法實現的檢索功能,例如透過使用其他模態作為查詢來檢索RGB 影像或其他模態。此外,4M-21 還可以組合多種模態來預測全域嵌入,從而更好地控制檢索,如右圖所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

開箱即用

4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

表 1 評估了 DIODE 表面法線和深度估計、COCO 語意和實例分割、3DPW  3D 人體姿態估計等。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

遷移實驗

此外,本文也訓練了三種不同尺寸的模型:B、L 和 XL。然後,將其編碼器遷移到下游任務,並在單模態 (RGB) 和多模態 (RGB + 深度) 設定上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:

太全了!蘋果上新視覺模型4M-21,搞定21種模態

最後,本文在 NYUv2、Hypersim 語意分割和 ARKitScenes 上的 3D 物件偵測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,並顯著改善了基準。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

以上是太全了!蘋果上新視覺模型4M-21,搞定21種模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器