OpenAI GPT-4V 和 Google Gemini 都展現了非常強的多模態理解能力,推動了多模態大模型(MLLM)快速發展,MLLM 成為了現在業界最熱的研究方向。
MLLM 在多種視覺-語言開放任務中取得了出色的指令跟隨能力。儘管過去多模態學習的研究顯示不同模態之間能夠相互協同和促進,但是現有的MLLM 的研究主要關注提升多模態任務的能力,如何平衡模態協作的收益與模態幹擾的影響仍然是亟待解決的重要問題。

請點擊以下連結查看論文:https://arxiv.org/pdf/2311.04257.pdf
#請查看以下程式碼位址:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
ModelScope 體驗位址:https: //modelscope.cn/studios/damo/mPLUG-Owl2/summary
-
HuggingFace 體驗位址連結:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2
針對這個問題,阿里巴巴的多模態大模型mPLUG-Owl迎來了一次大升級。透過模態協同的方式,它同時提升了純文字和多模態的性能,超過了LLaVA1.5、MiniGPT4、Qwen-VL等模型,在多種任務中取得了最佳性能。具體來說,mPLUG-Owl2利用共享的功能模組促進了不同模態之間的協作,並引入了模態自適應模組來保留各個模態的特徵。透過簡潔而有效的設計,mPLUG-Owl2在包括純文字和多模態任務在內的多個領域取得了最佳效能。模態協作現象的研究也為未來多模態大模型的發展提供了啟示

圖1 與現有MLLM 模型效能對比
方法介紹 為了達到不改變原始意思的目的,需要將內容重新寫成中文
mPLUG-Owl2 模型主要包含三個部分:
Visual Encoder:以ViT-L/14 作為視覺編碼器,將輸入的解析度為H x W 的影像,轉換為H/14 x W/14 的視覺tokens 序列,輸入到Visual Abstractor 中。
視覺擷取器:透過學習一組可用的查詢,提取高層次的語意特徵,同時減少輸入語言模型的視覺序列長度
語言模型:使用了LLaMA-2-7B 作為文字解碼器,並設計如圖3 所示的模態自適應模組。

圖2 mPLUG-Owl2 模型結構
為了對齊視覺和語言模態,現有的工作通常是將視覺特徵映射到文本的語義空間中,然而這樣的做法忽視了視覺和文本信息各自的特性,可能由於語義粒度的不匹配影響模型的性能。為了解決這個問題,本文提出模態自適應模組(Modality-adaptive Module, MAM),將視覺和文字特徵映射到共享的語義空間,同時解耦視覺- 語言表徵以保留模態各自的獨特屬性。

圖3 展示了模態自適應模組的示意圖
在圖3中顯示的是,與傳統的Transformer相比,模態自適應模組的主要設計在於:
#在模組的輸入、輸出階段,分別對視覺和語言模態進行LayerNorm 操作,以適應兩種模態各自的特徵分佈。
在自註意力操作中,對視覺和語言模態採用分離的key 和value 投影矩陣,但採用共享的query 投影矩陣,透過這樣解耦key 和value 投影矩陣,能夠在語意粒度不匹配的情況下,避免兩種模態之間的干擾。
透過共享相同的FFN,兩個模態可以促進彼此之間的協作

#對於圖4 mPLUG-Owl2的訓練策略進行最佳化
#如圖 4 所示,mPLUG-Owl2 的訓練包含預訓練和指令微調兩個階段。預訓練階段主要是為了實現視覺編碼器和語言模型的對齊,在這個階段,Visual Encoder、Visual Abstractor 都是可訓練的,語言模型中則只對Modality Adaptive Module 新增的視覺相關的模型權重進行更新。在指令微調階段,結合文字和多模態指令資料(如圖 5 所示)對模型的全部參數進行微調,以提升模型的指令跟隨能力。

圖5 mPLUG-Owl2 使用的指令微調資料
實驗及結果

#圖6 圖片描述與VQA 任務效能
圖7 MLLM 基準測試表現
如圖6、圖7 所示,無論是傳統的影像描述、VQA 等視覺- 語言任務,或是MMBench、Q-Bench 等在面向多模態大模型的基準資料集上,mPLUG-Owl2 都取得了優於現有工作的效能。

圖8 純文字基準測試效能

圖9 模態自適應模組對純文字任務表現的影響
#此外,為了評估模態協同對純文字任務的影響,作者也測試了mPLUG -Owl2 在自然語言理解和生成方面的表現。如圖 8 所示,與其他指令微調的 LLM 相比,mPLUG-Owl2 取得了更好的效能。圖 9 所展示的純文字任務上的表現可以看出,由於模態自適應模組促進了模態協作,模型的測驗和知識能力都得到了顯著提升。作者分析,這是由於多模態協作使得模型能夠利用視覺資訊來理解語言難以描述的概念,並透過圖像中豐富的資訊來增強模型的推理能力,並間接強化文本的推理能力。


mPLUG-Owl2 展現了出色的多模態理解能力,成功地緩解了多模態幻覺。這種多模態技術已經被應用於通義星塵、通義智文等核心通義產品,並且已經在 ModelScope、HuggingFace 開放 Demo 中得到了驗證
以上是阿里mPLUG-Owl新升級,魚與熊掌兼得,模態協同實現MLLM新SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版
好用的JavaScript開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。