搜索
首页科技周边人工智能BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。

但仅根据这些样例很难充分反映MLLM的性能,目前仍然缺乏对MLLM的全面评测。

为此,腾讯优图实验室联合厦门大学在新建的评测基准MM上首次对现有12种开源MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知和认知两个总榜以及14个子榜单:

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

论文链接:https://arxiv.org/pdf/2306.13394.pdf

项目链接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

现有MLLM的定量评测方法主要分为三类,但都存在一定的局限导致难以全面反映其性能。

第一类方法在传统的公开数据集上进行评测,例如图像描述(Image Caption)和视觉问答(VQA)数据集。

但一方面这些传统数据集可能难以反映MLLM涌现的新能力,另一方面由于大模型时代的训练集都不再统一,因此难以保证这些评测数据集没有被其他MLLM训练过。

第二种方式是收集新的数据进行开放式评测,但这些数据要么未公开[1],要么数量太少(仅有50张)[2]。

第三种方式聚焦于MLLM的某个特定方面,比如物体幻觉(Object Hallucination)[3]或者对抗鲁棒性[4],无法做全面评测。

目前亟需一个全面的评测基准来匹配MLLM的快速发展。研究人员认为一个通用的全面评测基准应该具有以下特点:

(1)应该覆盖尽可能多的范围,包括感知和认知能力。前者指的是识别物体,包括其存在性、数量、位置和颜色等。后者指的是综合感知信息以及LLM中的知识来进行更复杂的推理。其中前者是后者的基础。

(2)数据或者标注应该尽可能避免采用已有的公开数据集,以减少数据泄露的风险。

(3)指令应该尽可能简洁并且符合人类的认知习惯。不同的指令设计可能会极大影响模型的输出,但所有的模型都在统一的简洁指令下进行评测可以保证公平性。一个好的MLLM模型应该具备泛化到这种简洁指令上的能力,避免陷入Prompt Engineering。

(4)MLLM在该简洁指令下的输出应该是直观的并且便于定量统计。MLLM开放式的回答给量化统计提出了很大挑战。现有方法倾向于使用GPT或者人工打分,但可能面临着不准确和主观性的问题。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图1. MME评测基准示例。每张图片对应两个问题,答案分别为Yes[Y]和No[N]。问题加上「Please answer yes or no」共同构成指令。

基于以上原因,一个新的MLLM评测基准MME被构建出来,它同时具备以上四个特点:

1. MME同时评测感知和认知能力。除了OCR外,感知能力还包括粗粒度和细粒度目标识别。前者识别物体的存在性、数量、位置和颜色。后者识别电影海报、名人、场景、地标和艺术品。认知能力包括常识推理、数值计算、文本翻译和代码推理。总的子任务数达到14种,如图1所示。

2. MME中所有的指令-答案对都是人工构建的。对于少量使用到的公开数据集,仅使用其图像而没有依赖其原始标注。同时,研究人员也尽力通过人工拍摄和图像生成的方式来采集数据。

3. MME的指令被设计得尽量简洁以避免Prompt Engineering对模型输出的影响。研究人员再次申明一个好的MLLM应该泛化到这种简洁且使用频繁的指令,这对所有模型都是公平的。图1中显示了每个子任务的指令。

4. 得益于指令设计「Please answer yes or no」,可以方便地根据模型输出的「Yes」或「No」进行定量统计,这种方式可以同时保证准确性和客观性。值得注意的是,研究人员也尝试过设计选择题的指令,但发现当前的MLLM还难以跟随这类较为复杂的指令。

研究人员一共评测了12种先进的MLLM模型,包括BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、 mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、 VisualGLM-6B [12], PandaGPT [13], ImageBind-LLM [14] 和 LaVIN [15]。

其中,统计指标有三种,包括Accuracy,Accuracy+和Score。其中对于每个任务,Accuracy是基于问题统计而来,Accuracy+是基于图片统计而来(图片对应的两个问题都需要回答正确),Score是Accuracy和Accuracy+的和。

感知的总分为10种感知类子任务Score的总和,认知的总分是4种认知类任务Score的总和。具体详见项目链接。

12种模型在14种子任务上的测试比较如图2所示:

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图2. 12种模型在14种子任务上的比较。每种子任务的满分为200分。

一共16个榜单,包括感知类和认知类的总榜单以及14个子任务的榜单也已发布。两个总榜单分别如图3和图4所示,值得注意的是BLIP-2和InstructBLIP在这两个榜单中都保持在前三。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」图片

图3.感知类任务总榜单

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图4.认知类任务总榜单

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」

图5.所有榜单

另外研究人员也总结了MLLM模型在实验中暴露的一些通用问题,如图6所示,希望可以为后续的模型优化提供指导。

BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」图片

图6. MLLM暴露的通用问题。[Y]/[N]表示真实的答案是Yes/No。[R]是MLLM生成的答案。

第一个问题是不跟随指令。

尽管已经采用了非常简洁的指令设计,但仍然有MLLM自由回答问题而不是跟随指令。

如图6中的第一行所示,指令已经申明「Please answer yes or no」,但MLLM仅给出了一个陈述性回答。如果在回答的开头没有出现「Yes」或者「No」,都判定该回答错误。一个好的MLLM,尤其是经过指令微调后,应该能够泛化到这种简单的指令上。

第二个问题是缺乏感知能力。

如图6中的第二行所示,MLLM错误地识别了第一张图片中香蕉的数量和第二张图片中的数字,导致回答错误。研究人员也注意到感知的性能很容易受到指令变化的影响,因为同一张图的两个指令只相差一个单词,但导致了完全不同的感知结果。

第三个问题是缺乏推理能力。

如图6中的第三行所示,从红色的文字可以看出MLLM已经知道了第一张图片不是一个办公场所,但仍然给出了一个错误的回答「Yes」。

相似地,在第二张图片中,MLLM已经计算得到了正确的算数结果,但最终也给出了错误的答案。添加思维链Prompt,例如「Let’s think step by step」也许能带来更好的效果。期待这方面有更深入的研究。

第四个问题跟随指令的物体幻视。如图6中的第四行所示,当指令中含有图片中不存在的物体时,MLLM将会幻想该物体存在并最终给出一个「Yes」的回答。

这种总是回答「Yes」的方式导致了Accuracy接近于50%,Accuracy+接近于0。这表明抑制目标幻视的重要性,并且也需要进一步思考MLLM生成的答案的可靠性。

以上是BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
加利福尼亚攻击AI到快速赛道野火恢复许可证加利福尼亚攻击AI到快速赛道野火恢复许可证May 04, 2025 am 11:10 AM

AI简化了野火恢复允许 澳大利亚科技公司Archistar的AI软件利用机器学习和计算机视觉,可以自动评估建筑计划,以遵守当地法规。这种验证前具有重要意义

美国可以从爱沙尼亚AI驱动的数字政府中学到什么美国可以从爱沙尼亚AI驱动的数字政府中学到什么May 04, 2025 am 11:09 AM

爱沙尼亚的数字政府:美国的典范? 美国在官僚主义的效率低下方面挣扎,但爱沙尼亚提供了令人信服的选择。 这个小国拥有由AI支持的近100%数字化的,以公民为中心的政府。 这不是

通过生成AI的婚礼计划通过生成AI的婚礼计划May 04, 2025 am 11:08 AM

计划婚礼是一项艰巨的任务,即使是最有条理的夫妇,也常常压倒了婚礼。 本文是关于AI影响的持续福布斯系列的一部分(请参阅此处的链接),探讨了生成AI如何彻底改变婚礼计划。 婚礼上

什么是数字防御AI代理?什么是数字防御AI代理?May 04, 2025 am 11:07 AM

企业越来越多地利用AI代理商进行销售,而政府则将其用于各种既定任务。 但是,消费者倡导强调个人需要拥有自己的AI代理人作为对经常定位的辩护的必要性

商业领袖生成引擎优化指南(GEO)商业领袖生成引擎优化指南(GEO)May 03, 2025 am 11:14 AM

Google正在领导这一转变。它的“ AI概述”功能已经为10亿用户提供服务,在任何人单击链接之前提供完整的答案。[^2] 其他球员也正在迅速获得地面。 Chatgpt,Microsoft Copilot和PE

该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗May 03, 2025 am 11:13 AM

2022年,他创立了社会工程防御初创公司Doppel,以此做到这一点。随着网络犯罪分子越来越高级的AI模型来涡轮增压,Doppel的AI系统帮助企业对其进行了大规模的对抗 - 更快,更快,

世界模型如何从根本上重塑生成AI和LLM的未来世界模型如何从根本上重塑生成AI和LLM的未来May 03, 2025 am 11:12 AM

瞧,通过与合适的世界模型进行交互,可以实质上提高生成的AI和LLM。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括

2050年五月:我们要庆祝什么?2050年五月:我们要庆祝什么?May 03, 2025 am 11:11 AM

劳动节2050年。全国范围内的公园充满了享受传统烧烤的家庭,而怀旧游行则穿过城市街道。然而,庆祝活动现在具有像博物馆般的品质 - 历史重演而不是纪念C

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能