搜尋
首頁科技週邊人工智慧字節豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

##目前主流的視覺語言模型(VLM)主要基於大語言模型( LLM)進一步微調。因此需要透過各種方式將圖像映射到 LLM 的嵌入空間,然後使用自回歸方式根據圖像 token 預測答案。

在這個過程中,
模態的對齊是透過文字 token 隱式實現的,如何做好這一步的對齊非常關鍵。

針對這個問題,武漢大學、位元組跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種
基於對比學習的文本token篩選方法(CAL),從文字中篩選出與影像高度相關的token,並加強其損失函數權重,從而實現更精準的多模態對齊。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

  • 論文連結:https://arxiv.org/pdf/2405.17871
  • 程式碼連結:https://github.com/foundation-multimodal-models/CAL

#CAL 有以下幾個亮點:

  • 可以直接嵌套到訓練過程,無需額外預訓練階段。
  • 在 OCR 和 Caption benchmarks 上獲得了明顯的提升,從視覺化中可以發現 CAL 使得圖片模態對齊效果更好。
  • CAL 使得訓練過程對雜訊資料抵抗能力更強。

研究動機


##目前視覺語言模型依賴圖片模態的對齊,如何做好對齊非常關鍵。目前主流的方法是透過文字自回歸的方式進行隱式對齊,但是每個文字 token 對圖像對齊的貢獻是不一致的,對這些文字 token 進行區分是非常有必要的。
  • CAL 提出,在現有的視覺語言模型(VLM)訓練資料中,文字token 可以被分為三類:
  • 與圖片高度相關的文字
    :如實體(例如人、動物、物件)、數量、顏色、文字等。這些 token 與影像資訊直接對應,對多模態對齊至關重要。
  • 與圖片低相關度的文字
    :如承接詞或可以透過前文推論出的內容。這些 token 其實主要是在訓練 VLM 的純文字能力。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果與圖片內容相悖的文字

:這些 token 與圖像訊息不一致,甚至可能提供誤導訊息,對多模態對齊過程產生負面影響。 #####################
                                圖片中:綠色標記為與圖片高度相關#token,紅色為中性內容相悖,無色為中性為#token,紅色為中性內容相悖,無色為中性
##11

在訓練過程中,後兩類token 整體而言實際上佔據了較大比例,但由於它們並不強依賴於圖片,對圖片的模態對齊作用不大。因此,為了實現更好的對齊,需要加大第一類文字 token,也就是與圖片高度相關部分 token 的權重。如何找出這一部分 token 成為了解決這個問題的關鍵。

方法

#找出與圖片高度相關token這個問題可以透過condition contrastive 的方式來解決。

  •  對於訓練資料中的每個圖文對,在沒有圖片輸入的情況下,每個文字token 上的logit 代表LLM基於上下文情況和已有知識對這種情況出現的估計值。
  • 如果在前面添加圖片輸入,相當於提供額外的上下文信息,這種情況下每個 text token 的 logit 會基於新的情況進行調整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文字 token 的影響大小。

具體來說,在訓練過程中,CAL 將圖文序列和單獨的文字序列分別輸入到大語言模型(LLM)中,得到每個文字token 的logit。透過計算這兩種情況下的 logit 差值,可以衡量圖片對每個 token 的影響程度。 logit 差值越大,表示圖片對該 token 的影響越大,因此該 token 與圖像越相關。下圖展示了文字 token 的 logit diff 和 CAL 方法的流程圖。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                         圖二:左圖為兩個情境中的流程的視覺化,右圖為可視化,右圖為可視化方法為視覺化方法為視覺化方法為視覺化方法為視覺化,為右圖為「可視化方法」的為視覺化,右圖為視覺化方法為視覺化,為視覺化方法為視覺化方法為視覺化,為視覺化方法為視覺化,為右圖為可視覺化方法的為視覺化,為視覺化是視覺化方法為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方法的右圖為視覺化,為右邊是視覺化方式為

##實驗

#CAL 在LLaVA 和MGM 兩個主流模型上進行了實驗驗證,在不同規模的模型下均實現了性能提升。

包含以下四個部分的驗證:

#(1)使用CAL 的模型在各項基準測試指標上表現更佳。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

#(2) 以比例隨機交換兩個圖文對中的文字來製造一批雜訊資料(圖文錯配),並用於模型訓練,CAL 使得訓練過程具有更強的資料抗噪效能。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              圖三:在不同強度訓練噪聲情況下,CAL 與基線的性能表現

(3)對QA case 中的答案部分計算其與圖片token 的注意力分數分佈,並將其繪製在原圖上,CAL 訓練的模型擁有更清晰的注意力分佈圖。

#

                             圖四:基線與CAL 的attention map 可視化,每對中的右邊為CAL

(4)將每個圖片token 映射為它最相似LLM 詞表中的文字token,將其繪製到原圖上,CAL 訓練的模型映射內容更接近圖片內容。 字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              圖五:將image token 映射為最相似詞表token,並對應到原圖上

團隊介紹:

#位元組跳動豆包大模型團隊成立於2023 年,致力於開發業界最先進的AI 大模型技術,成為世界級的研究團隊,為科技和社會發展做出貢獻。

豆包大模型團隊在AI 領域擁有長期願景與決心,研究方向涵蓋NLP、CV、語音等,在中國、新加坡、美國等地設有實驗室及研究職缺。團隊依托平台充足的數據、運算等資源,在相關領域持續投入,已推出自研通用大模型,提供多模態能力,下游支援豆包、釦子、即夢等50 + 業務,並透過火山引擎開放給企業客戶。目前,豆包 APP 已成為中國市場用戶量最大的 AIGC 應用程式。歡迎加入位元組跳動豆包大模型團隊。

以上是字節豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元Sep 14, 2023 pm 09:41 PM

字节跳动旗下的创意视频剪辑工具CapCut在中国、美国和东南亚拥有大量用户。该工具支持安卓、iOS和PC平台市场调研机构data.ai最新报告指出,截至2023年9月11日,CapCut在iOS和GooglePlay上的用户总支出已突破1亿美元(本站备注:当前约7.28亿元人民币),成功超越Splice(2022年下半年排名第一)成为2023年上半年全球最吸金的视频剪辑应用,与2022年下半年相比增长了180%。截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用CapCut。da

深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶Jan 24, 2024 pm 05:27 PM

据南山区政府官方微信公众号“创新南山”透露,深圳字节跳动后海中心项目最近取得了重要进展。根据中建一局建设发展公司的消息,该项目主体结构提前3天全部完成封顶工作。这一消息意味着南山后海核心区将迎来一个新的地标建筑。深圳字节跳动后海中心项目位于南山区后海核心区,是今日头条科技有限公司在深圳市的总部办公大楼。总建筑面积为7.74万平方米,高约150米,共有地下4层和地上32层。据悉,深圳字节跳动后海中心项目将成为一座创新型超高层建筑,集办公、娱乐、餐饮等功能为一体。该项目将有助于深圳推动互联网产业的集

字节跳动模型大规模部署实战字节跳动模型大规模部署实战Apr 12, 2023 pm 08:31 PM

一. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。随着 PyTorch/TensorFlow 框架的流行,深度学习模型训练和在线推理完成了统一,开发者仅需要关注具体算法逻辑,调用框架的 Python API 完成训练验证过程即可,之后模型可以很方便的序列化导出,并由统一的高性能 C++ 引擎完成推理工作。提升了开发者训练到部署的体验

NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。May 06, 2023 pm 10:46 PM

近日,人工智能国际顶会AAAI2023公布评选结果。新加坡国立大学(NUS)与字节跳动机器学习团队(AML)合作的CowClip技术论文入围杰出论文(DistinguishedPapers)。CowClip是一项模型训练优化策略,可以在保证模型精度的前提下,实现在单张GPU上的模型训练速度提升72倍,相关代码现已开源。​论文地址:https://arxiv.org/abs/2204.06240​开源地址:https://github.com/bytedance/LargeBatchCTR​AAA

字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地Jan 18, 2024 pm 04:00 PM

IT之家1月18日消息,针对近日TikTok国内员工转岗海外的传言,据接近字节跳动的人士透露,该公司正在加拿大、澳大利亚等地筹建研发中心。目前,部分研发中心已试运营半年左右,未来将支持TikTok、CapCut、Lemon8等多个海外业务研发。字节跳动计划以当地招聘为主,并辅助少量外派的方式筹建相关研发中心。据了解,过去半年,该公司已从美国、中国、新加坡等地选派少量工程师参与筹建。其中,从中国向两地研发中心累计派出包括产品、研发和运营岗位120人。相关人士表示,此举是为了应对海外业务的发展,更好

Pico疑似即将发布全新VR头显Pico 4S,硬件升级引期待Pico疑似即将发布全新VR头显Pico 4S,硬件升级引期待Mar 16, 2024 pm 08:49 PM

近期,科技圈再次掀起了一股虚拟现实(VR)的热潮。据称,字节跳动旗下的VR子公司Pico即将推出全新的独立VR头显——Pico4S。一位名为@Lunayian的用户在社交媒体上发布了一张3D模型图片,声称该图片来自PicoConnectPC客户端,展示了Pico4S的右控制器设计。这款控制器的外观与去年9月在网络上泄露的"Pico5"控制器非常相似,但与Pico4的控制器有一些明显的差异,主要体现在取消了定位环。这一设计调整可能预示着Pico4S将带来全新的用户体验和交互方式。据了解,Pico在

PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5Dec 15, 2023 am 09:34 AM

本站12月13日消息,据TheInformation,字节跳动准备砍掉其PICO新一代VR头显PICO5,因为现款PICO4的销量远远低于预期。根据EqualOcean在今年10月的一篇文章,据称字节跳动将逐步关闭PICO,并放弃元宇宙领域。文章指出,字节跳动认为PICO所处的硬件领域并非其专长,几年来的成绩未达到预期,并且对未来缺乏希望在当时,字节跳动的相关负责人对于关于“逐步放弃PICO业务”的传闻进行了回应,称这一消息是不实的。他们表示PICO业务仍在正常运营,并且公司将会长期投入扩展现实

抖音子公司推出基于云雀模型的 AI 机器人“豆包”抖音子公司推出基于云雀模型的 AI 机器人“豆包”Aug 23, 2023 am 10:53 AM

本站8月17日消息,字节跳动旗下LLM人工智能机器人“豆包”现已开始小范围邀请测试,用户可通过手机号、抖音或者AppleID登录。根据报道,据称字节跳动公司开发了一款名为"豆包"的AI工具,该工具基于云雀模型,提供聊天机器人、写作助手和英语学习助手等功能。它可以回答各种问题并进行对话,帮助人们获取信息。"豆包"支持网页Web平台、iOS和安卓平台,但在iOS平台上需要通过TestFlight进行安装官网用户协议显示,“豆包”软件及相关服务系指北京春田知韵科

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器