搜尋
首頁科技週邊人工智慧達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

純文字大模型方興未艾,多模態領域也開始湧現出多模態大模型工作,地表最強的GPT-4 具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,於是乎研究社群開始在這個方向上發力研究並開源。 MiniGPT-4 和 LLaVA 問世不久,阿里達摩院便推出 mPLUG-Owl ,一個基於模組化實現的多模態大模型。

mPLUG-Owl 是阿⾥巴巴達摩院 mPLUG 系列的最新工作,延續了 mPLUG 系列的模組化訓練思想,把 LLM 升級為一個多模態大模型。在 mPLUG 系列工作中,先前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。

今天要介紹的是mPLUG-Owl,該工作不僅透過大量cases 展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全⾯的測試集OwlEval,透過人工評測比較了已有模型,包括LLaVA 、MiniGPT-4 、BLIP-2 以及系統類MM-REACT 等工作,實驗結果表明mPLUG-Owl 展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方⾯表現突出

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

論文連結:https://arxiv.org/abs/2304.14178

程式碼連結:https://github.com/X-PLUG /mPLUG-Owl

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

ModelScope體驗網址:

##https://modelscope. cn/studios/damo/mPLUG-Owl/summary

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

#HuggingFace體驗位址:

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把mPLUG-Owl 與現有工作進行比較來感受一下mPLUG-Owl 的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherry pick 問題。

下圖 6 展示了 mPLUG-Owl 很強的多輪對話能力。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

###從圖 7 可以發現,  mPLUG-Owl 具有很強的推理能力。 ###########################如圖 9 展示了一些笑話解釋範例⼦。 ###########################在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl 初顯一些意想不到的能力,例如多圖關聯、多語⾔、文字辨識和文件理解等能力。 ############如圖 10 所示,雖然在訓練階段並沒有進行多圖關聯資料的訓練,mPLUG-Owl 展現出了一定的多圖關聯能力。 ###########################如圖11 所示,儘管mPLUG-Owl 在訓練階段僅使用了英文數據,但其展現出了有趣的多語⾔能力。這可能是因為 mPLUG-Owl 中的語⾔模型使用了 LLaMA,因而出現了這一現象。 ######

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

儘管mPLUG-Owl 沒有在帶有標註的文檔資料上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12 所示。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

方法介紹

#該工作所提出的mPLUG-Owl,其整體架構如圖2 所示。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

模型結構:它由視覺基礎模組

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

(開源的ViT-L)、視覺抽像模組

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

#以及預訓練語⾔模型

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

( LLaMA-7B) 組成。視覺抽像模組將較⻓的、細粒度的影像特徵概括為少量可學習的 Token,從而實現對視覺資訊的⾼效建模。 ⽣成的視覺 Token 與文字查詢一起輸⼊到語⾔模型中,以⽣成對應的回應。

模型訓練:採用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語⾔模態間的對⻬。有別於先前的工作,  mPLUG-Owl 提出凍住視覺基礎模組會限制模型關聯視覺知識和文字知識的能力。  因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數,採用 LAION-400M,  COYO-700M,  CC 以及 MSCOCO 訓練視覺基礎模組和視覺摘要模組。

第⼆階段:延續mPLUG 和mPLUG-2 中不同模態混合訓練對彼此有收益的發現,Owl 在第⼆階段的指令微調訓練中也同時採用了純文本的指令資料(52kfrom Alpaca 90k from Vicuna 50k from Baize) 和多模態的指令資料(150k from LLaVA)。作者透過詳細的消融實驗驗證了引⼊純文字指令微調在指令理解等方⾯帶來的效益。 ⼆階段中視覺基礎模組、視覺摘要模組和原始 LLM 的參數都被凍住,參考 LoRA,只在 LLM 引⼊少量參數的 adapter 結構用於指令微調。

實驗結果

SOTA 對比

為了比較不同模型的多模態能力,該工作建構一個多模態指令評測集OwlEval。由於⽬前並沒有適當的自動化指標,參考Self-Intruct 對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C ="理解了指令但是回復有明顯錯誤";D="完全不相關或不正確的回應"。

比較結果如下圖 3 所示,實驗證明 Owl 在視覺相關的指令回復任務上優於現有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

多重維度能力比較

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖⽚上文字理解以及推理等。為了細粒度地探究模型在不同能力上的⽔平,本文進一步定義了多模態場景中的6 種主要的能力,並對OwlEval 每個測試指令人工標註了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格6 所示,在該部分實驗,作者既進行了Owl 的消融實驗,驗證了訓練策略和多模態指令微調資料的有效性,也和上一個實驗中表現最佳的baseline— MiniGPT4 進行了對比,結果顯示Owl 在各個能力方⾯都優於MiniGPT4。

達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力

以上是達摩院貓頭鷹mPLUG-Owl亮相:模組化多模態大模型,追趕GPT-4多模態能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

4個新的雙子座功能您可以錯過4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

Camunda為經紀人AI編排編寫了新的分數Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

策劃的企業AI體驗是否有價值?策劃的企業AI體驗是否有價值?Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

如何為抹布找到最佳的多語言嵌入模型?如何為抹布找到最佳的多語言嵌入模型?Apr 23, 2025 am 11:44 AM

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

麝香:奧斯汀的機器人需要每10,000英里進行干預麝香:奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

AI震驚的樞軸:從工作工具到數字治療師和生活教練AI震驚的樞軸:從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將

公司競爭AI代理的採用公司競爭AI代理的採用Apr 23, 2025 am 11:40 AM

AI代理商的興起正在改變業務格局。 與雲革命相比,預計AI代理的影響呈指數增長,有望徹底改變知識工作。 模擬人類決策的能力

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用