搜索
首页科技周边人工智能字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

在这个过程中,模态的对齐是通过文本 token 隐式实现的,如何做好这一步的对齐非常关键。

针对这一问题,武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法(CAL),从文本中筛选出与图像高度相关的 token,并加大其损失函数权重,从而实现更精准的多模态对齐。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

  • 论文链接:https://arxiv.org/pdf/2405.17871
  • 代码链接:https://github.com/foundation-multimodal-models/CAL

CAL 有以下几个亮点:

  • 可以直接嵌套到训练过程,无需额外预训练阶段。
  • 在 OCR 和 Caption benchmarks 上获得了明显的提升,从可视化中可以发现 CAL 使得图片模态对齐效果更好。
  • CAL 使得训练过程对噪声数据抵抗能力更强。

研究动机

目前视觉语言模型依赖于图片模态的对齐,如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐,但是每个文本 token 对图像对齐的贡献是不一致的,对这些文本 token 进行区分是非常有必要的。

CAL 提出,在现有的视觉语言模型(VLM)训练数据中,文本 token 可以被分为三类:

  • 与图片高度相关的文本:如实体(例如人、动物、物体)、数量、颜色、文字等。这些 token 与图像信息直接对应,对多模态对齐至关重要。
  • 与图片低相关度的文本:如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
  • 与图片内容相悖的文本:这些 token 与图像信息不一致,甚至可能提供误导信息,对多模态对齐过程产生负面影响。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

                                图一:绿色标记为与图片高度相关 token,红色为内容相悖,无色为中性 token

在训练过程中,后两类 token 整体而言实际上占据了较大比例,但由于它们并不强依赖于图片,对图片的模态对齐作用不大。因此,为了实现更好的对齐,需要加大第一类文本 token,即与图片高度相关部分 token 的权重。如何找出这一部分 token 成为了解决这个问题的关键所在。

方法

找出与图片高度相关 token 这个问题可以通过 condition contrastive 的方式来解决。

  •  对于训练数据中的每个图文对,在没有图片输入的情况下,每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。
  • 如果在前面添加图片输入,相当于提供额外的上下文信息,这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。

具体来说,在训练过程中,CAL 将图文序列和单独的文本序列分别输入到大语言模型(LLM)中,得到每个文本 token 的 logit。通过计算这两种情况下的 logit 差值,可以衡量图片对每个 token 的影响程度。logit 差值越大,说明图片对该 token 的影响越大,因此该 token 与图像越相关。下图展示了文本 token 的 logit diff 和 CAL 方法的流程图。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                         图二:左图是对两种情形下 token logit diff 的可视化,右图是 CAL 方法流程的可视化

实验

CAL 在 LLaVA 和 MGM 两个主流模型上进行了实验验证,在不同规模的模型下均实现了性能提升。

包含以下四个部分的验证:

(1)使用 CAL 的模型在各项基准测试指标上表现更佳。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

(2) 通过按比例随机交换两个图文对中的文本来制造一批噪声数据(图文错配),并用于模型训练,CAL 使得训练过程具有更强的数据抗噪性能。字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              图三:在不同强度训练噪声情况下,CAL 与基线的性能表现

(3)对 QA case 中的答案部分计算其与图片 token 的注意力分数分布,并将其绘制在原图上,CAL 训练的模型拥有更清晰的注意力分布图。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

: 4: The baseline and the Attention Map of CAL, each pair of the right is CAL

(4) Map each image token to its most similar text token in the LLM vocabulary, and draw it on the original image. The mapping content of the model trained by CAL is closer to the image content.
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
##                                                                                                                                                                                                                                                                                            Team introduction:

ByteDance Beanbao Big Model Team was established in 2023 , committed to developing the industry's most advanced AI large model technology, becoming a world-class research team, and contributing to technological and social development.

The Doubao Big Model team has long-term vision and determination in the field of AI, with research directions covering NLP, CV, speech, etc. It has laboratories and research positions in China, Singapore, the United States and other places. Relying on the platform's sufficient data, computing and other resources, the team continues to invest in related fields. It has launched a self-developed general large model to provide multi-modal capabilities. It supports 50+ businesses downstream such as Doubao, Buttons, and Jimeng, and is open to the public through the Volcano Engine. Corporate customers. At present, Doubao APP has become the AIGC application with the largest number of users in the Chinese market. Welcome to join the ByteDance Beanbao model team.

以上是字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元Sep 14, 2023 pm 09:41 PM

字节跳动旗下的创意视频剪辑工具CapCut在中国、美国和东南亚拥有大量用户。该工具支持安卓、iOS和PC平台市场调研机构data.ai最新报告指出,截至2023年9月11日,CapCut在iOS和GooglePlay上的用户总支出已突破1亿美元(本站备注:当前约7.28亿元人民币),成功超越Splice(2022年下半年排名第一)成为2023年上半年全球最吸金的视频剪辑应用,与2022年下半年相比增长了180%。截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用CapCut。da

深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶Jan 24, 2024 pm 05:27 PM

据南山区政府官方微信公众号“创新南山”透露,深圳字节跳动后海中心项目最近取得了重要进展。根据中建一局建设发展公司的消息,该项目主体结构提前3天全部完成封顶工作。这一消息意味着南山后海核心区将迎来一个新的地标建筑。深圳字节跳动后海中心项目位于南山区后海核心区,是今日头条科技有限公司在深圳市的总部办公大楼。总建筑面积为7.74万平方米,高约150米,共有地下4层和地上32层。据悉,深圳字节跳动后海中心项目将成为一座创新型超高层建筑,集办公、娱乐、餐饮等功能为一体。该项目将有助于深圳推动互联网产业的集

字节跳动模型大规模部署实战字节跳动模型大规模部署实战Apr 12, 2023 pm 08:31 PM

一. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。随着 PyTorch/TensorFlow 框架的流行,深度学习模型训练和在线推理完成了统一,开发者仅需要关注具体算法逻辑,调用框架的 Python API 完成训练验证过程即可,之后模型可以很方便的序列化导出,并由统一的高性能 C++ 引擎完成推理工作。提升了开发者训练到部署的体验

NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。May 06, 2023 pm 10:46 PM

近日,人工智能国际顶会AAAI2023公布评选结果。新加坡国立大学(NUS)与字节跳动机器学习团队(AML)合作的CowClip技术论文入围杰出论文(DistinguishedPapers)。CowClip是一项模型训练优化策略,可以在保证模型精度的前提下,实现在单张GPU上的模型训练速度提升72倍,相关代码现已开源。​论文地址:https://arxiv.org/abs/2204.06240​开源地址:https://github.com/bytedance/LargeBatchCTR​AAA

字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地Jan 18, 2024 pm 04:00 PM

IT之家1月18日消息,针对近日TikTok国内员工转岗海外的传言,据接近字节跳动的人士透露,该公司正在加拿大、澳大利亚等地筹建研发中心。目前,部分研发中心已试运营半年左右,未来将支持TikTok、CapCut、Lemon8等多个海外业务研发。字节跳动计划以当地招聘为主,并辅助少量外派的方式筹建相关研发中心。据了解,过去半年,该公司已从美国、中国、新加坡等地选派少量工程师参与筹建。其中,从中国向两地研发中心累计派出包括产品、研发和运营岗位120人。相关人士表示,此举是为了应对海外业务的发展,更好

Pico疑似即将发布全新VR头显Pico 4S,硬件升级引期待Pico疑似即将发布全新VR头显Pico 4S,硬件升级引期待Mar 16, 2024 pm 08:49 PM

近期,科技圈再次掀起了一股虚拟现实(VR)的热潮。据称,字节跳动旗下的VR子公司Pico即将推出全新的独立VR头显——Pico4S。一位名为@Lunayian的用户在社交媒体上发布了一张3D模型图片,声称该图片来自PicoConnectPC客户端,展示了Pico4S的右控制器设计。这款控制器的外观与去年9月在网络上泄露的"Pico5"控制器非常相似,但与Pico4的控制器有一些明显的差异,主要体现在取消了定位环。这一设计调整可能预示着Pico4S将带来全新的用户体验和交互方式。据了解,Pico在

PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5Dec 15, 2023 am 09:34 AM

本站12月13日消息,据TheInformation,字节跳动准备砍掉其PICO新一代VR头显PICO5,因为现款PICO4的销量远远低于预期。根据EqualOcean在今年10月的一篇文章,据称字节跳动将逐步关闭PICO,并放弃元宇宙领域。文章指出,字节跳动认为PICO所处的硬件领域并非其专长,几年来的成绩未达到预期,并且对未来缺乏希望在当时,字节跳动的相关负责人对于关于“逐步放弃PICO业务”的传闻进行了回应,称这一消息是不实的。他们表示PICO业务仍在正常运营,并且公司将会长期投入扩展现实

抖音子公司推出基于云雀模型的 AI 机器人“豆包”抖音子公司推出基于云雀模型的 AI 机器人“豆包”Aug 23, 2023 am 10:53 AM

本站8月17日消息,字节跳动旗下LLM人工智能机器人“豆包”现已开始小范围邀请测试,用户可通过手机号、抖音或者AppleID登录。根据报道,据称字节跳动公司开发了一款名为"豆包"的AI工具,该工具基于云雀模型,提供聊天机器人、写作助手和英语学习助手等功能。它可以回答各种问题并进行对话,帮助人们获取信息。"豆包"支持网页Web平台、iOS和安卓平台,但在iOS平台上需要通过TestFlight进行安装官网用户协议显示,“豆包”软件及相关服务系指北京春田知韵科

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境