首頁 >科技週邊 >人工智慧 >豆包大模型團隊發布全新Detail Image Caption評估基準，提升VLM Caption評測可靠性

豆包大模型團隊發布全新Detail Image Caption評估基準，提升VLM Caption評測可靠性

WBOY原創: 2024-07-18 20:10:02797瀏覽

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

目前的視覺語言模型（VLM）主要透過QA 問答形式進行測測，而缺乏對基礎能力的評估模型image caption 性能的可靠評測手段。

針對這一問題，中科院、北大和字節豆包大模型團隊發布了DetailCaps-4870 數據集，並提出了一種有效的評估指標CAPTURE，取得了開源評估指標中最高的專家評價一致性，並低成本實現了與GPT-Eval 可比的效果。

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

論文：https://arxiv.org/abs/2405.19092
資料集：https://huggingface.co/datasets/foundm-Mult
代碼：https://github.com/foundation-multimodal-models/CAPTURE

簡介

。

現有的LVLM 評測方案主要採用VQA 形式，很大程度受到指令遵循（instruction following）能力的影響，且QA prompt 的設計容易引入人類的偏見（bias）。

針對這些問題，該研究提出了新的 Detail image caption benchmark 和 evaluation metric，以在較低的成本下實現了對 LVLM 圖像理解能力的準確評估。

在所提出的評測資料集 & 指標的指導下，該研究也探討了發掘 LVLM 自身能力進行 detail image caption 的資料建構方法，有效提升了 detail caption 資料品質。

圖一：左側為CAPTURE 圖一：左側為CAPTURE 圖形化

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

資料集

相比類似大小的評測資料集，研究提出的Detail image caption benchmark 文本長度更長，無重複的2-gram 數量明顯更多，包含更豐富的視覺信息：

^{表一：DetailCaps benchmark 統計資料}CAPTURE (

CAP

tion evaluation by exTracting and co

pling co
RE

information) 指標透過4 步驟進行caption 品質評估。如下圖所示，首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素，緊接著過濾掉沒有實際意義的 objects。之後，透過三階段匹配（精確匹配、近義詞匹配、embedding 匹配）分別計算 obj、attr、rel 元素的匹配得分（F1 分數），加權作為最終結果。

圖中：CAPTURE metric 圖二：CAPTURE metric 詳細計算步驟數據合成

在DetailCaps benchmark 和CAPTURE metric 的指導下，該研究提出了一種基於divide-and-conquer 思想發掘LVLM 潛力進行資料合成的方法，有效提升了detail caption 資料品質。此方案首先使用 LVLM 進行全圖 caption 生成，之後使用分割模型（SAM [2]）和聚類等過濾方法找到圖中的關鍵位置並將其裁切出來進行局部 caption 生成。文章使用一種word-level 的過濾方法來減少caption 中的幻覺，該方法首先解析（parse）出描述圖中視覺元素的詞和短語，再透過目標檢測模型（Owlv2 [3]）過濾掉得分低的元素。最後，將過濾後的全圖 caption、局部 caption 送入 LLM（LLaMA2 [4]）融合為最終的影像描述。豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

實驗

CAPTURE 指標

（ -100（人工標註reference caption，人工評估模型在產生caption 分數）和DetailCaps-4870（GPT 標註reference caption，GPT-4 評估模型產生caption 得分）上，對LLaVA-1.5 [5]、CogVLM [6] 和ShareCaptioner [7] 三個模型產生的caption 進行了專家評分，計算各評估指標與專家評估的一致性：

各caption 評估指標和專家評估的一致性透過pearson correlation（線性相關性）、 R^2（絕對值大小）、 Kendall's tau（排序偏序對一致性）和(Per-) Sample (Kendall's) tau（每個樣本單獨計算取平均）指標來衡量。

結果顯示，CAPTURE 在各種指標上都取得了最優的專家評價一致性。在這些指標中，Sample tau 與實際 detail image caption 評估的計算方式最為接近，CAPTURE 也是唯一在這個指標上取得與 GPT4-Eval 接近的方法，在評估的準確率、成本上取得了良好的平衡。

（2）消融分析

研究者也對 CAPTURE 中的各個模組進行了消融分析，並驗證其有效性：豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

^{表三：CAPTURE 各組中的消融分析}
) 有效性
🜎但 stop words filtering 會對不同樣例的 detail caption 造成不同的影響，進而導致 pcc、kendall tau 微降。 Soft matching 也提升了 sample tau，同時在 1-R2 分數上有明顯增益作用，將 CAPTURE 預測分數和專家打分數的絕對分數對齊。在加權計算最終得分時，obj:attr:rel 比例取 default 的 5:5:2 最好，提升或降低各元素的比重都會造成性能下降。

（3）開源LVLM 的detail caption 效能

效能對比

整體來看，InternVL-1.5 是當前表現最好的開源LVLM。從 LLaVA、MiniGemini 結果可以看出，LLM 參數量的提升對模型 detail caption 能力有一致的提升作用。同時，解析度較高、使用高品質 detail caption 進行訓練的模型，效能會更好。

Detail caption 資料建構

基於 detail caption 評估資料集和評測指標，研究者驗證了所提出的 detail caption 資料合成方案的有效性。

（1）Detail caption 合成方法在不同LVLM 上的有效性

如下表所示，本研究提出的detail 3caption 合成方法在LLaVA-1.5-7B、LVA3-1. LLaVA-NEXT-7B 與Mini-Gemini-7B-HD 上取得了一致的detail caption 品質提升：

效果

（2）透過Self-loop 進一步提升detail caption 效能

研究者也嘗試透過資料打標-> 模型訓練-> 重新打標的訓練流程進行進一步提升Self-loop 來進一步提昇文本 deLV caption 性能，在四輪loop 中都取得了正面效果。同時，比較開源方案[8] 與本文所提出的word-level 幻覺濾波方案，證明了其設計的有效性：

sel效果和消融分析

（3）LVLM 自身打標的detail caption 可提升其整體性能

該研究使用LLaVAcapp.重新打標，並將打標資料用於LLaVA-1.5 的SFT 訓練，在多個benchmark 上取得了一致的效能提升：
^{表七：合成詳細標題資料在LLaVA-1.5-7B模式訓練中的作用}參考

[1] 莊力、柴宇洋、卓躍、曲麗珍、Gholamreza Haffari、李飛、季東紅和Quan Hung Tran。事實：忠實一致的文字場景圖解析的基準。 arXiv:2305.17497, 2023
[2] Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Teteun、Spencer White、Hanzi Mao、Whead Rolland、Laura Gustafson、Tete Shaw、Spencer White、Alexander、Alexander C.分割任何東西。 ICCV 2023
[3] Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby。擴展開放詞彙物件偵測。 NIPS 2024
[4] Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shr Bhooctale 等。 Llama 2：開放基礎與微調的聊天模型。 arXiv:2307.09288, 2023
[5] 劉浩天、李春元、李宇恆和李永傑。透過視覺指令調整改進基線。 NeurIPS 2023 指令調優與指令追蹤研討會，2023
[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoy, Yang, Lejuan, X許家事、許斌、李娟子、董玉曉、丁明和唐傑。 Cogvlm：預訓練語言模型的視覺專家。 arXiv:2311.03079, 2023
[7] 陳林、李繼松、董曉義、張潘、何從輝、王嘉琪、趙峰和林大華。 Sharegpt4v：透過更好的標題來改進大型多模式模型。 arXiv:2311.12793, 2023
[8] 張莉，楊彪，劉強，馬志銀，張碩，楊景旭，孫亞波，劉玉良，白翔。 Monkey：影像解析度和文字標籤對於大型多模態模型來說很重要。 arXiv:2311.06607, 2023
豆包大模型團隊
字節跳動豆包大模型團隊成立於2023年致力於，開發業界最先進的AI大模型，成為世界一流的研究團隊和社會發展做出貢獻。

豆包大模型團隊在AI領域擁有長遠的願景與決心，研究方向主題NLP、CV、語音等，在中國、新加坡、美國等地設立實驗室和研究崗位。團隊支援平台充足的數據、運算等資源，在相關領域持續投入，已推出自研通用大模型，提供多模態能力，下游支援豆包、釦子、即夢等50+業務，並透過火山引擎開放給予企業客戶。目前，豆包APP已成為中國市場用戶量最大的AIGC應用程式。歡迎加入位元組跳動豆包大模型團隊。

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

以上是豆包大模型團隊發布全新Detail Image Caption評估基準，提升VLM Caption評測可靠性的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Object for Attribute default li github nlp https AIGC gpt llama prompt embedding word Foundation

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：三星中國Galaxy Z系列新品接取豆包大模型下一篇：三星中國Galaxy Z系列新品接取豆包大模型

看更多