首頁  >  文章  >  科技週邊  >  復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

WBOY
WBOY轉載
2024-03-05 09:19:17899瀏覽

最近,OpenAI 的視訊生成模型 Sora 爆火,生成式 AI 模型在多模態方面的能力再次引起廣泛關注。

現實世界本質上是多模態的,生物體透過不同的管道來感知和交換訊息,包括視覺、語言、聲音和觸覺。開發多模態系統的一個有望方向是增強LLM 的多模態感知能力,主要涉及多模態編碼器與語言模型的集成,從而使其能夠跨各種模態處理信息,並利用LLM 的文本處理能力來產生連貫的反應。

然而,此策略僅適用於文字生成,並未涵蓋多模態輸出。一些開創性的研究在語言模型中實現了多模態理解和生成,取得了重大進展,但這些模型僅限於單一的非文字模態,例如圖像或音訊。

為了解決上述問題,復旦大學邱錫鵬團隊聯合Multimodal Art Projection(MAP)、上海人工智慧實驗室的研究者提出了一個名為AnyGPT 的多模態語言模型,該模型能夠以任意的模態組合來理解和推理各種模態的內容。具體來說,AnyGPT 可以理解文字、語音、圖像、音樂等多種模態交織的指令,並能熟練地選擇合適的多模態組合進行回應。

例如給予一段語音prompt,AnyGPT 能夠產生語音、圖像、音樂形式的綜合回應:

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

##給出文字圖像形式的prompt,AnyGPT 能夠按照prompt 要求生成音樂:

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持


  • #論文網址:https://arxiv.org/pdf/2402.12226.pdf

專案首頁:https://junzhan2000.github.io/AnyGPT.github.io/復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

方法簡介

AnyGPT 利用離散表徵來統一處理各種模態,包括語音、文字、圖像和音樂。

為了完成任意模態到任意模態的生成任務,研究提出了一個可以統一訓練的綜合框架。如下圖1 所示,該框架由三個主要元件組成,包括:

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

多模態tokenizer############作為主幹網路的多模態語言模型############多模態de-tokenizer########################其中,tokenizer 將連續的非文字模態轉換為離散的token,隨後將其排列成多模態交錯序列。然後,語言模型使用下一個 token 預測訓練目標進行訓練。在推理過程中,多模態 token 被相關的 de-tokenizer 解碼回其原始表徵。為了豐富生成的質量,可以部署多模態增強模組來對生成的結果進行後處理,包括語音克隆或影像超解析度等應用。 ############AnyGPT 可以穩定地訓練,無需對目前的大型語言模型(LLM)架構或訓練範式進行任何改變。相反,它完全依賴資料級預處理,使得新模態無縫整合到 LLM 中,類似於添加新語言。 ############這項研究的一個關鍵挑戰是缺乏多模態交錯指令追蹤資料。為了完成多模態對齊預訓練,研究團隊利用生成模型合成了第一個大規模「任意對任意」多模態指令資料集 ——AnyInstruct-108k。它由 108k 多輪對話樣本組成,這些對話錯綜複雜地交織著各種模態,從而使模型能夠處理多模態輸入和輸出的任意組合。 #####################

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

這些資料通常需要大量位元才能準確表徵,從而導致序列較長,這對語言模型的要求特別高,因為計算複雜度隨著序列長度呈指數級增加。為了解決這個問題,研究採用了兩階段的高保真生成框架,包括語意資訊建模和感知資訊建模。首先,語言模型的任務是產生在語意層面經過融合和對齊的內容。然後,非自回歸模型在感知層面將多模態語意 token 轉換為高保真多模態內容,在效能和效率之間取得平衡。

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

#實驗結果表明,AnyGPT 能夠完成任意模態對任意模態的對話任務,同時在所有模態中實現與專用模型相當的性能,證明離散表徵可以有效且方便地統一語言模型中的多種模態。

該研究評估了預訓練基礎 AnyGPT 的基本功能,涵蓋所有模態的多模態理解和生成任務。該評估旨在測試預訓練過程中不同模態之間的一致性,具體來說是測試了每種模態的text-to-X 和X-to-text 任務,其中X 分別是圖像、音樂和語音。

為了模擬真實場景,所有評估均以零樣本模式進行。這意味著 AnyGPT 在評估過程中不會對下游訓練樣本進行微調或預訓練。這種具有挑戰性的評估設定要求模型泛化到未知的測試分佈。

評估結果表明,AnyGPT 作為一種通用的多模態語言模型,在各種多模態理解和生成任務上取得了令人稱讚的性能。

圖像

該研究評估了AnyGPT 在圖像描述任務上的圖像理解能力,結果如表2所示。

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

文字到影像產生任務的結果如表 3 所示。

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持語音

#該研究透過計算LibriSpeech 資料集的測試子集上的單字錯誤率(WER) 來評估AnyGPT 在自動語音辨識(ASR) 任務上的效能,並使用Wav2vec 2.0 和Whisper Large V2 作為基線,評估結果如表5 所示。

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

#音樂

復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持

##該研究在MusicCaps 基準上評估了AnyGPT 在音樂理解和生成任務方面的表現,採用 CLAP_score 分數作為客觀指標,衡量生成的音樂和文本描述之間的相似度,評估結果如表6 所示。 ##################有興趣的讀者可以閱讀論文原文,了解更多研究內容。 ############

以上是復旦等發表AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支持的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除