字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果-人工智能-PHP中文网

首页

科技周边

人工智能

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 19, 2024 am 09:53 AM

工程字节跳动豆包大模型

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

在这个过程中，模态的对齐是通过文本 token 隐式实现的，如何做好这一步的对齐非常关键。

针对这一问题，武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法（CAL），从文本中筛选出与图像高度相关的 token，并加大其损失函数权重，从而实现更精准的多模态对齐。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

论文链接：https://arxiv.org/pdf/2405.17871
代码链接：https://github.com/foundation-multimodal-models/CAL

CAL 有以下几个亮点：

可以直接嵌套到训练过程，无需额外预训练阶段。
在 OCR 和 Caption benchmarks 上获得了明显的提升，从可视化中可以发现 CAL 使得图片模态对齐效果更好。
CAL 使得训练过程对噪声数据抵抗能力更强。

研究动机

目前视觉语言模型依赖于图片模态的对齐，如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐，但是每个文本 token 对图像对齐的贡献是不一致的，对这些文本 token 进行区分是非常有必要的。

CAL 提出，在现有的视觉语言模型（VLM）训练数据中，文本 token 可以被分为三类：

与图片高度相关的文本：如实体（例如人、动物、物体）、数量、颜色、文字等。这些 token 与图像信息直接对应，对多模态对齐至关重要。
与图片低相关度的文本：如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
与图片内容相悖的文本：这些 token 与图像信息不一致，甚至可能提供误导信息，对多模态对齐过程产生负面影响。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图一：绿色标记为与图片高度相关 token，红色为内容相悖，无色为中性 token}

在训练过程中，后两类 token 整体而言实际上占据了较大比例，但由于它们并不强依赖于图片，对图片的模态对齐作用不大。因此，为了实现更好的对齐，需要加大第一类文本 token，即与图片高度相关部分 token 的权重。如何找出这一部分 token 成为了解决这个问题的关键所在。

方法

找出与图片高度相关 token 这个问题可以通过 condition contrastive 的方式来解决。

对于训练数据中的每个图文对，在没有图片输入的情况下，每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。
如果在前面添加图片输入，相当于提供额外的上下文信息，这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。

具体来说，在训练过程中，CAL 将图文序列和单独的文本序列分别输入到大语言模型（LLM）中，得到每个文本 token 的 logit。通过计算这两种情况下的 logit 差值，可以衡量图片对每个 token 的影响程度。logit 差值越大，说明图片对该 token 的影响越大，因此该 token 与图像越相关。下图展示了文本 token 的 logit diff 和 CAL 方法的流程图。

^{图二：左图是对两种情形下 token logit diff 的可视化，右图是 CAL 方法流程的可视化}

实验

CAL 在 LLaVA 和 MGM 两个主流模型上进行了实验验证，在不同规模的模型下均实现了性能提升。

包含以下四个部分的验证：

（1）使用 CAL 的模型在各项基准测试指标上表现更佳。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

（2）通过按比例随机交换两个图文对中的文本来制造一批噪声数据（图文错配），并用于模型训练，CAL 使得训练过程具有更强的数据抗噪性能。字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{图三：在不同强度训练噪声情况下，CAL 与基线的性能表现}

（3）对 QA case 中的答案部分计算其与图片 token 的注意力分数分布，并将其绘制在原图上，CAL 训练的模型拥有更清晰的注意力分布图。

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

^{： 4: The baseline and the Attention Map of CAL, each pair of the right is CAL}

(4) Map each image token to its most similar text token in the LLM vocabulary, and draw it on the original image. The mapping content of the model trained by CAL is closer to the image content.

## Team introduction:

ByteDance Beanbao Big Model Team was established in 2023 , committed to developing the industry's most advanced AI large model technology, becoming a world-class research team, and contributing to technological and social development.

The Doubao Big Model team has long-term vision and determination in the field of AI, with research directions covering NLP, CV, speech, etc. It has laboratories and research positions in China, Singapore, the United States and other places. Relying on the platform's sufficient data, computing and other resources, the team continues to invest in related fields. It has launched a self-developed general large model to provide multi-modal capabilities. It supports 50+ businesses downstream such as Doubao, Buttons, and Jimeng, and is open to the public through the Volcano Engine. Corporate customers. At present, Doubao APP has become the AIGC application with the largest number of users in the Chinese market. Welcome to join the ByteDance Beanbao model team.

以上是字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

AI内部部署的隐藏危险：治理差距和灾难性风险Apr 28, 2025 am 11:12 AM

Apollo Research的一份新报告显示，先进的AI系统的不受检查的内部部署构成了重大风险。在大型人工智能公司中缺乏监督，普遍存在，允许潜在的灾难性结果

构建AI测谎仪Apr 28, 2025 am 11:11 AM

传统测谎仪已经过时了。依靠腕带连接的指针，打印出受试者生命体征和身体反应的测谎仪，在识破谎言方面并不精确。这就是为什么测谎结果通常不被法庭采纳的原因，尽管它曾导致许多无辜者入狱。相比之下，人工智能是一个强大的数据引擎，其工作原理是全方位观察。这意味着科学家可以通过多种途径将人工智能应用于寻求真相的应用中。一种方法是像测谎仪一样分析被审问者的生命体征反应，但采用更详细、更精确的比较分析。另一种方法是利用语言标记来分析人们实际所说的话，并运用逻辑和推理。俗话说，一个谎言会滋生另一个谎言，最终

AI是否已清除航空航天行业的起飞？Apr 28, 2025 am 11:10 AM

航空航天业是创新的先驱，它利用AI应对其最复杂的挑战。现代航空的越来越复杂性需要AI的自动化和实时智能功能，以提高安全性，降低操作

观看北京的春季机器人比赛Apr 28, 2025 am 11:09 AM

机器人技术的飞速发展为我们带来了一个引人入胜的案例研究。来自Noetix的N2机器人重达40多磅，身高3英尺，据说可以后空翻。Unitree公司推出的G1机器人重量约为N2的两倍，身高约4英尺。比赛中还有许多体型更小的类人机器人参赛，甚至还有一款由风扇驱动前进的机器人。数据解读这场半程马拉松吸引了超过12,000名观众，但只有21台类人机器人参赛。尽管政府指出参赛机器人赛前进行了“强化训练”，但并非所有机器人均完成了全程比赛。冠军——由北京类人机器人创新中心研发的Tiangong Ult

镜子陷阱：人工智能伦理和人类想象力的崩溃Apr 28, 2025 am 11:08 AM

人工智能以目前的形式并不是真正智能的。它擅长模仿和完善现有数据。我们不是在创造人工智能，而是人工推断 - 处理信息的机器，而人类则

新的Google泄漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份报告发现，在谷歌相册Android版7.26版本的代码中隐藏了一个更新的界面，每次查看照片时，都会在屏幕底部显示一行新检测到的面孔缩略图。新的面部缩略图缺少姓名标签，所以我怀疑您需要单独点击它们才能查看有关每个检测到的人员的更多信息。就目前而言，此功能除了谷歌相册已在您的图像中找到这些人之外，不提供任何其他信息。此功能尚未上线，因此我们不知道谷歌将如何准确地使用它。谷歌可以使用缩略图来加快查找所选人员的更多照片的速度，或者可能用于其他目的，例如选择要编辑的个人。我们拭目以待。就目前而言