研究者指出,CoDi-2標誌著在開發全面的多模態基礎模型領域取得了重大突破
今年5 月,北卡羅來納大學教堂山分校、微軟提出一個可組合擴散(Composable Diffusion,簡稱CoDi)模型,讓一個模型統一多種模態成為可能。 CoDi 不僅支援從單模態到單模態的生成,還能接收多個條件輸入以及多模態聯合生成。
最近,來自UC柏克萊、微軟Azure AI、Zoom、以及北卡羅萊納大學教堂山分校的多位研究者已將CoDi系統升級至CoDi-2版本
#重新寫內容,不改變原意,需要改寫成中文語言,不需要出現原句
根據Zineng Tang的論文,CoDi-2遵循複雜的多模態交錯上下文指令,以零樣本或少樣本交互的方式生成任何模態(文本、視覺和音頻)
此連結為圖片來源:https://twitter.com/ZinengTang/status/1730658941414371820
可以說,作為一個多功能、互動的多模態大語言模型(MLLM),CoDi-2 能夠以any-to-any 輸入-輸出模態範式進行上下文學習、推理、聊天、編輯等任務。透過對齊編碼與生成時的模態與語言,CoDi-2 使LLM 不僅可以理解複雜的模態交錯指令和上下文範例, 還能在連續的特徵空間內自回歸地產生合理和連貫的多模態輸出。
而為了訓練 CoDi-2,研究者建構了一個大規模生成資料集,包含了跨文字、視覺和音訊的上下文多模態指令。 CoDi-2 展示了一系列多模態生成的零樣本能力,例如上下文學習、推理以及透過多輪互動對話實現的 any-to-any 模態生成組合。其中在主題驅動影像生成、視覺轉換和音訊編輯等任務上超越了以往領域特定的模型。
人類與 CoDi-2 的多輪對話為影像編輯提供了上下文多模態指令。
需要重新書寫的內容是:模型架構
#CoDi-2 在設計時旨在處理上下文中的文字、圖像和音頻等多模態輸入,利用特定指令促進上下文學習並產生對應的文字、影像和音訊輸出。 CoDi-2 需要重新書寫的內容是:模型架構圖如下。
以多模態大語言模型作為基礎引擎
這種any-to-any 基礎模型可以消化交錯式模態輸入,理解和推理複雜指令(如多輪對話、上下文範例),並與多模態擴散器交互,實現這一切的前提是需要一個強大的基礎引擎。研究者提出將 MLLM 作為這個引擎,它的建構需要為僅文本的 LLM 提供多模態感知。
利用對齊的多模態編碼器映射,研究者可以無縫地使 LLM 感知到模態交錯的輸入序列。具體地,在處理多模態輸入序列時,他們首先使用多模態編碼器將多模態資料映射到特徵序列,然後特殊token 被添加到特徵序列的前後,例如「〈audio〉 [audio feature sequence ] 〈/audio〉」。
多模態產生的基礎是MLLM
研究者提出將擴散模型(DM)整合到MLLM中,以產生多模態輸出。在此過程中,遵循了詳盡的多模態交錯指令和提示。擴散模型的訓練目標如下所示:
接著他們提出訓練 MLLM 以產生條件式特徵 c = C_y (y),該特徵被饋入到擴散模型中以合成目標輸出 x。這樣一來,擴散模型的生成損失被用來訓練 MLLM。
任務類型
該模型在以下範例任務類型中展現出強大的能力,它提供了一種獨特的方法,可以促使模型產生或轉換上下文中的多模態內容,包括文字、圖像、音訊、視訊及其組合
#重寫後的內容為:1. 零樣本推理。零樣本推理任務要求模型在沒有任何先前範例的情況下進行推理並產生新的內容
2. 一次/少量樣本提示。一次或少量樣本提示為模型提供了一個或幾個範例,以便在執行類似任務之前從中學習。這種方法在以下任務中很明顯:模型將學習到的概念從一個圖像應用到另一個圖像,或透過理解所提供範例中描述的風格來創建一個新的藝術品。
實驗及結果
#模型設定
#本文模型的實作是基於Llama2,特別是Llama-2-7b- chat-hf。研究者使用 ImageBind ,它具有對齊的圖像、視訊、音訊、文字、深度、thermal 和 IMU 模式編碼器。研究者使用 ImageBind 對影像和音訊特徵進行編碼,並透過多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。 MLP 由線性映射、活化、歸一化和另一個線性映射組成。當 LLM 產生影像或音訊特徵時,他們會透過另一個 MLP 將其投射回 ImageBind 特徵維度。本文影像擴散模型基於 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2。
研究人員為了獲得更高保真度的原始輸入圖像或音頻,將它們輸入到擴散模型中,並透過連接擴散噪聲來產生特徵。這種方法非常有效,它可以最大程度地保留輸入內容的感知特徵,並能夠添加新內容或改變風格等指令編輯
需要進行重寫的內容是:圖像生成評估
下圖展示了Dreambench 上主題驅動影像產生的評估結果和MSCOCO 上的FID 分數。本文方法實現了極具競爭力的零樣本性能,顯示了其對未知新任務的泛化能力。
音訊產生評估
表5 展示了音訊處理任務的評估結果,即在新增、刪除和取代音軌中的元素。從表中可以明顯看出,與先前的方法相比,本文方法表現出了卓越的性能。值得注意的是,在所有三個編輯任務中,它在所有指標——對數譜距離(LSD)、Kullback-Leibler(KL)發散和Fréchet Distance(FD)上都取得了最低得分
閱讀原文,了解更多技術細節。
以上是任意文字、視覺、音訊混合生成,多模態有了強大的基礎引擎CoDi-2的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具