想知道《清明上河图》里面有多少头骆驼吗?来看看这个支持超高清输入的多模态模型吧。
最近,来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。
论文地址:https://arxiv.org/abs/2311.04219
与受限于固定尺寸视觉编码器的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保了其在各种推理需求下的通用性。
同时,团队还提出了一个全新的基准测试MagnifierBench,可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。
实验结果表明,OtterHD-8B的性能表现在直接处理高分辨率输入方面显着优于同类型号
效果演示
如下图中,询问清明上河图(局部)中有多少只骆驼,图片输入达到了2446x1766像素,模型也能成功对答。
面对GPT4-V曾经为之困惑的数苹果问题,该模型成功地计算出其中包含11个苹果
除了论文中展示的高清输入的例子,我们也进行了一些测试,下图我们让模型假设用户是一个剑桥大学的PhD,解释这个图是什么意思。
其中模型的回答中准确的识别出图片中的Black Hole和White Hole等信息,并且识别出其是一个tunnel-like structure,然后给出了详细的解释。
在下面的图表中,模型被要求解释关于能源占比的情况。模型成功地识别了图中所示的几种能源类型,并准确地呈现了它们随时间变化的占比情况
下图关于换灯泡的流程图,模型准确理解了流程图的含义并且给出了一步一步的详细指导。
80亿参数指令微调OtterHD-8B
Fuyu-8B的OtterHD-8B是第一个在最大1024×1024输入上进行训练的开源指令微调大语言模型,这一点值得注意
此外,在推理过程中,它还能进一步扩展到更大的分辨率(如1440×1440)。
训练细节
在初步实验中,团队发现Fuyu在对某些基准测试的特定指令作出响应时表现不佳,这导致在MME和MMBench上模型的性能非常弱
为了解决这些问题,团队进行了指令微调,基于370K条混合数据对Fuyu模型进行了调整,并参考LLaVA-1.5的相似指令模板来规范模型回答的格式
在训练阶段,所有数据集都被组织成指令/应答对,汇总到统一的dataloader中,并进行统一采样,以确保代表性的完整性。
为了提升建模代码的效能,团队采用了FlashAttention-2和FlashAttention资源库中的算子融合技术
在Fuyu简化的架构的帮助下,根据图2所示,这些修改显着提高了GPU的利用率和吞吐量
具体来说,团队提出的方法可以在8×A100 GPU上以3小时/epoch的速度完成全参数训练,而LoRA微调后每epoch只需1小时。
在使用AdamW优化器训练模型时,批大小为64,学习率设置为1×10^-5,权重衰减为0.1。
超精细评测基准MagnifierBench
人类视觉系统可以自然地感知视野内物体的细节,但目前用于测试LMM的基准并没有特别侧重于评估这方面的能力。
随着Fuyu和OtterHD模型的出现,我们第一次将输入图像的分辨率扩展到了更大的范围。
为此,团队基于Panoptic Scene Graph Generation(PVSG)数据集,制作了一个涵盖166幅图像共283组问题的全新测试基准MagnifierBench。
PVSG数据集由视频数据组成,其中包含大量杂乱无章的复杂场景,尤其是第一人称的家务视频。
在标注阶段,团队仔细检查了数据集中的每个问题-答案对,剔除了那些涉及大型物体,或者很容易用常识性知识回答的问题。例如,遥控器大多都是黑的,很容易猜到,而红黄等颜色则不在此列。
如图3所示,MagnifierBench设计的问题类型包括识别、数字、颜色相关问题等。该数据集的一个重要标准是,问题必须足够复杂,就连标注者都必须在全屏模式下,甚至放大图像才能准确回答
与简短的回答相比,LMM更擅长在对话环境中生成扩展的回答。
- 多选题
这个模型面临的问题是有多个选项可以选择。为了引导模型选择一个字母(如A、B、C)作为答案,团队在问题前加上了给定选项中的字母作为提示。在这种情况下,只有完全符合正确选项的答案才被视为正确答案
- 开放题
多个选项会简化任务,因为随机猜测有25%的正确率。此外,这并不能反映聊天助手所面临的真实场景,因为用户通常不会向模型提供预定义的选项。为了消除这种潜在的偏差,团队还以直截了当、不设任何提示选项的开放式方式向模型提出问题。
实验分析
研究结果表明,虽然很多模型在MME和POPE等既定基准上取得了高分,但它们在MagnifierBench上的表现却往往不尽如人意。另一方面,OtterHD-8B在MagnifierBench上表现出色。
团队为了进一步探索提高分辨率的效果,以及测试OtterHD在不同、可能更高的分辨率下的泛化能力,通过使用固定或动态分辨率对Otter8B进行了训练
x轴表明,随着分辨率的提高,会有更多的图像token被发送到语言解码器,从而提供了更多的图像细节。
实验结果表明,随着分辨率的提高,MagnifierBench的性能也在相应提升
随着分辨率的提高,图像与文本的比例逐渐增大。这是因为平均文本的token数保持不变
这一变化突出了LMM分辨率的重要性,尤其是对于需要复杂视觉关联的任务。
此外,固定训练方法和动态训练方法之间的性能差异凸显了动态调整大小的优势,尤其是防止特定分辨率的过拟合。
动态策略还有一个优点,就是可以让模型适应更高的分辨率(1440),即使在训练期间没有见过
一些对比
结论
基于Fuyu-8B的创新架构,研究团队提出了OtterHD-8B模型,它可以有效处理各种分辨率的图像,并摆脱了大多数LMM中固定分辨率输入的限制
与此同时,OtterHD-8B在处理高分辨率图像方面表现出色
在新的MagnifierBench基准测试中,这一点变得尤为明显。该基准测试的目的是评估LMM在复杂场景中识别细节的能力,突出了对不同分辨率更加灵活支持的重要性
以上是通过80亿参数OtterHD,南洋理工华人团队带你「清明上河图」中数骆驼的体验的详细内容。更多信息请关注PHP中文网其他相关文章!

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
视觉化网页开发工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。