搜索
首页科技周边人工智能无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM

多模态大模型爆发,准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗?

目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述,在像素级理解方面的能力(例如物体分割)相对有限。

针对这个问题,一些工作开始探索借助多模态大模型来处理用户的分割指令(例如,“请分割出图片中富含维生素C的水果”)。

然而,市面上的方法都存在两个主要缺点:

1) 无法处理涉及多个目标对象的任务,而这在现实世界场景中是不可或缺的;

2) 依赖于像SAM这样的预训练图像分割模型,而SAM的一次前向传播需要的计算量已经足够 Llama-7B产生500多个token了。

为了解决此问题,字节跳动智能创作团队联合北京交通大学、北京科技大学的研究人员提出了首个无需依赖SAM的高效像素级推理大模型PixelLM。

在具体介绍它之前,先来体验几组PixelLM实际分割的效果:

相比之前的工作,PixelLM的优势在于:

  • 能够熟练处理任意数量的开放域目标和多样化的复杂推理分割任务。
  • 避免了额外的、成本高昂的分割模型,提升了效率和对不同应用的迁移能力。

进一步,为了支持这一研究领域的模型训练和评估,研究团队在LVIS数据集的基础之上,借助GPT-4V构建了一个面向多目标推理分割场景的数据集MUSE,它包含20万个以上的问题-答案对,涉及90万个以上的实例分割掩码。

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM

为了实现上述的效果,这项研究具体是如何做的呢?

背后原理

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

如论文中的框架图所示,PixelLM架构十分简洁,包括四个主要部分,后两者是PixelLM的核心:

  1. 预训练的CLIP-ViT视觉编码器
  2. 大语言模型
  3. 轻量级像素解码器
  4. 分割码表 Seg Codebook

Seg codebook包含可学习的tokens,它们用于编码CLIP-ViT不同尺度上的目标信息。然后,像素解码器基于这些tokens和CLIP-ViT的图像特征生成目标分割结果。得益于这种设计,PixelLM可以在没有外部分割模型的情况下生成高质量的分割结果,显著提高了模型效率。

根据研究人员的描述,Seg codebook内的tokens可分为L组,每一组包含N个token,每个组对应于来自CLIP-ViT视觉特征的一个尺度。

对于输入的图像,PixelLM从CLIP-ViT视觉编码器产的图像特征中提取出L个尺度的特征,其中最后一层涵盖了全局图像信息,会被LLM用作理解图像内容。

Seg codebook的tokens将会与文本指令及最后一层图像特征一起输入LLM中,以自回归的形式产生输出。而输出中也将包含经过LLM处理后的Seg codebook tokens,它们将与L个尺度的CLIP-ViT特征一起输入到像素解码器中产生最终的分割结果。

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

那么为什么还要设置每组包含N个token呢?研究人员结合下图进行了解释:

在涉及多个目标或目标所包含的语义十分复杂的情景中,尽管LLM可以提供详细的文本响应,但仅使用单个token可能无法充分捕捉目标语义的全部内容。

为了增强模型在复杂推理情景下的能力,研究人员在每个尺度组内引入多个token,并执行一个token的线性融合操作。在token传入解码器之前,使用线性投影层将每个分组内的token合并。

下图展示了每组内多个token时的效果。注意力图是每个token经过解码器处理后的样子,这个可视化结果表明,多个token提供了独特且互补的信息,从而实现了更有效的分割输出。

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

此外,为了增强模型区分多个目标的能力,PixelLM还额外设计了一个Target Refinement Loss。

MUSE数据集

尽管已经提出了上述解决方案,但为了充分发挥模型的能力,模型仍然需要适当的训练数据。回顾目前可用的公开数据集,发现现有的数据存在以下主要限制:

1) 对物体细节的描述不够充足;
2) 缺乏具有复杂推理和多种目标数量的问题-答案对。

为了解决这些问题,研究团队借助GPT-4V构建了一个自动化的数据标注流水线,并由此产生了MUSE数据集。下图展示了MUSE生成时所用到的Prompt及产生的数据示例。

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

在MUSE中,所有实例掩码都来自LVIS数据集,并且额外添加了根据图像内容生成的详细文本描述。MUSE包含了24.6万个问题-答案对,每个问题-答案对平均涉及3.7个目标物体。此外,研究团队对数据集进行了详尽的统计分析:

类别统计:MUSE中有来自原始LVIS数据集的1000多个类别,以及90万个具有独特描述的实例,这些描述基于问题-答案对的上下文而变化。图(a)显示了所有问题-答案对中每个类别的实例数量。

Token数目统计:图(b)展示了实例描述的token数目分布,其中有的实例描述包含了超过100个tokens。这些描述不仅限于简单的类别名称;相反,它们通过基于GPT-4V的数据生成流程,大量丰富了每个实例的详细信息,涵盖了外观、属性和与其他对象的关系等。数据集中信息的深度和多样性增强了训练模型的泛化能力,使其能够有效地解决开放域问题。

目标数目统计:图(c)展示了每个问题-答案对中目标数量的统计数据。平均目标数量为3.7,最大目标数量可达34个。这个数字可以覆盖单个图像的大多数目标推理场景。

算法测评

研究团队在三个benchmark上评测了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究团队要求模型在一个问题中连续地分割出referring segmentation benchmark中每幅图像包含的多个目标。

同时,由于PixelLM是首个处理涉及多目标复杂像素推理任务的模型,研究团队建立了四个baseline以对模型进行比较分析。

其中三个baseline基于与PixelLM最相关工作LISA,包括:

1)原始的LISA;

2)LISA_rec: 先将问题输入LLAVA-13B以得到目标的文本回复,再用LISA分割这些文本;

3)LISA_aug:直接将MUSE加入LISA的训练数据。

4) 另外一个则是不使用LLM的通用分割模型SEEM。

无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM图片

在三个benchmark的绝大多数指标上,PixelLM的性能均优于其他方法,且由于PixelLM不依赖于SAM,其TFLOPs远远低于同尺寸的模型。

感兴趣的小伙伴可以先关注一波,坐等代码开源了~

参考链接:
[1]https://www.php.cn/link/9271858951e6fe9504d1f05ae8576001
[2]https://www.php.cn/link/f1686b4badcf28d33ed632036c7ab0b8

以上是无需SA依赖,高效实现像素级推理的字节多模态大模型PixelLM的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
Gemma范围:Google'用于凝视AI的显微镜Gemma范围:Google'用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作 了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包,为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位?谁是商业智能分析师以及如何成为一位?Apr 17, 2025 am 11:44 AM

解锁业务成功:成为商业智能分析师的指南 想象一下,将原始数据转换为驱动组织增长的可行见解。 这是商业智能(BI)分析师的力量 - 在GU中的关键作用

如何在SQL中添加列? - 分析Vidhya如何在SQL中添加列? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍 想象一个繁华的办公室,两名专业人员在一个关键项目中合作。 业务分析师专注于公司的目标,确定改进领域,并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta? - 分析Vidhya什么是Excel中的Count和Counta? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析:COUNT 和 COUNTA 函数详解 精确的数据计数和分析在 Excel 中至关重要,尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的,其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格,但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节,突出它们独特的特性和区别,并学习如何在数据分析中应用它们。 要点概述 理解 COUNT 和 COU

Chrome在这里与AI:每天都有新事物!Chrome在这里与AI:每天都有新事物!Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution:个性化和高效的浏览体验 人工智能(AI)正在迅速改变我们的日常生活,而Google Chrome正在领导网络浏览领域的负责人。 本文探讨了兴奋

AI的人类方面:福祉和四人底线AI的人类方面:福祉和四人底线Apr 17, 2025 am 11:28 AM

重新构想影响:四倍的底线 长期以来,对话一直以狭义的AI影响来控制,主要集中在利润的最低点上。但是,更全面的方法认识到BU的相互联系

您应该知道的5个改变游戏规则的量子计算用例您应该知道的5个改变游戏规则的量子计算用例Apr 17, 2025 am 11:24 AM

事情正稳步发展。投资投入量子服务提供商和初创企业表明,行业了解其意义。而且,越来越多的现实用例正在出现以证明其价值超出

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。