首頁 >科技週邊 >人工智慧 >達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

WBOY
WBOY轉載
2023-05-17 08:28:051350瀏覽

純文字大模型方興未艾,多模態領域也開始湧現出多模態大模型工作,地表最強的GPT-4 具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,於是乎研究社群開始在這個方向上發力研究並開源。 MiniGPT-4 和 LLaVA 問世不久,阿里達摩院便推出 mPLUG-Owl ,一個基於模組化實現的多模態大模型。

mPLUG-Owl 是阿⾥巴巴達摩院 mPLUG 系列的最新工作,延續了 mPLUG 系列的模組化訓練思想,把 LLM 升級為一個多模態大模型。在 mPLUG 系列工作中,先前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。

今天要介紹的是mPLUG-Owl,該工作不僅透過大量cases 展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全⾯的測試集OwlEval,透過人工評測比較了已有模型,包括LLaVA 、MiniGPT-4 、BLIP-2 以及系統類MM-REACT 等工作,實驗結果表明mPLUG-Owl 展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方⾯表現突出

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

論文連結:https://arxiv.org/abs/2304.14178

程式碼連結:https://github.com/X-PLUG /mPLUG-Owl

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

ModelScope體驗網址:

##https://modelscope. cn/studios/damo/mPLUG-Owl/summary

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

#HuggingFace體驗位址:

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把mPLUG-Owl 與現有工作進行比較來感受一下mPLUG-Owl 的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherry pick 問題。

下圖 6 展示了 mPLUG-Owl 很強的多輪對話能力。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

###從圖 7 可以發現,  mPLUG-Owl 具有很強的推理能力。 ###########################如圖 9 展示了一些笑話解釋範例⼦。 ###########################在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl 初顯一些意想不到的能力,例如多圖關聯、多語⾔、文字辨識和文件理解等能力。 ############如圖 10 所示,雖然在訓練階段並沒有進行多圖關聯資料的訓練,mPLUG-Owl 展現出了一定的多圖關聯能力。 ###########################如圖11 所示,儘管mPLUG-Owl 在訓練階段僅使用了英文數據,但其展現出了有趣的多語⾔能力。這可能是因為 mPLUG-Owl 中的語⾔模型使用了 LLaMA,因而出現了這一現象。 ######

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

儘管mPLUG-Owl 沒有在帶有標註的文檔資料上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12 所示。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

方法介紹

#該工作所提出的mPLUG-Owl,其整體架構如圖2 所示。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

模型結構:它由視覺基礎模組

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

(開源的ViT-L)、視覺抽像模組

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

#以及預訓練語⾔模型

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

( LLaMA-7B) 組成。視覺抽像模組將較⻓的、細粒度的影像特徵概括為少量可學習的 Token,從而實現對視覺資訊的⾼效建模。 ⽣成的視覺 Token 與文字查詢一起輸⼊到語⾔模型中,以⽣成對應的回應。

模型訓練:採用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語⾔模態間的對⻬。有別於先前的工作,  mPLUG-Owl 提出凍住視覺基礎模組會限制模型關聯視覺知識和文字知識的能力。  因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數,採用 LAION-400M,  COYO-700M,  CC 以及 MSCOCO 訓練視覺基礎模組和視覺摘要模組。

第⼆階段:延續mPLUG 和mPLUG-2 中不同模態混合訓練對彼此有收益的發現,Owl 在第⼆階段的指令微調訓練中也同時採用了純文本的指令資料(52kfrom Alpaca 90k from Vicuna 50k from Baize) 和多模態的指令資料(150k from LLaVA)。作者透過詳細的消融實驗驗證了引⼊純文字指令微調在指令理解等方⾯帶來的效益。 ⼆階段中視覺基礎模組、視覺摘要模組和原始 LLM 的參數都被凍住,參考 LoRA,只在 LLM 引⼊少量參數的 adapter 結構用於指令微調。

實驗結果

SOTA 對比

為了比較不同模型的多模態能力,該工作建構一個多模態指令評測集OwlEval。由於⽬前並沒有適當的自動化指標,參考Self-Intruct 對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C ="理解了指令但是回復有明顯錯誤";D="完全不相關或不正確的回應"。

比較結果如下圖 3 所示,實驗證明 Owl 在視覺相關的指令回復任務上優於現有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

多重維度能力比較

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖⽚上文字理解以及推理等。為了細粒度地探究模型在不同能力上的⽔平,本文進一步定義了多模態場景中的6 種主要的能力,並對OwlEval 每個測試指令人工標註了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格6 所示,在該部分實驗,作者既進行了Owl 的消融實驗,驗證了訓練策略和多模態指令微調資料的有效性,也和上一個實驗中表現最佳的baseline— MiniGPT4 進行了對比,結果顯示Owl 在各個能力方⾯都優於MiniGPT4。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

以上是達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除