首頁  >  文章  >  科技週邊  >  豆包大模型團隊發布全新Detail Image Caption評估基準,提升VLM Caption評測可靠性

豆包大模型團隊發布全新Detail Image Caption評估基準,提升VLM Caption評測可靠性

WBOY
WBOY原創
2024-07-18 20:10:02685瀏覽
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

目前的視覺語言模型(VLM)主要透過QA 問答形式進行測測,而缺乏對基礎能力的評估模型image caption 性能的可靠評測手段。

針對這一問題,中科院、北大和字節豆包大模型團隊發布了DetailCaps-4870 數據集,並提出了一種有效的評估指標CAPTURE,取得了開源評估指標中最高的專家評價一致性,並低成本實現了與GPT-Eval 可比的效果。

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

  • 論文:https://arxiv.org/abs/2405.19092
  • 資料集:https://huggingface.co/datasets/foundm-Mult
    代碼:https://github.com/foundation-multimodal-models/CAPTURE

簡介

現有的LVLM 評測方案主要採用VQA 形式,很大程度受到指令遵循(instruction following)能力的影響,且QA prompt 的設計容易引入人類的偏見(bias)。

    Image caption 任務可以有效評估模型理解能力,但現有的 caption benchmark 多使用短 caption 作為 ground truth,這在 lvlm 時代完全過時。
  • 同時,現有的 image caption 評測指標與人類、GPT 等專家評估結果的一致性較差,常用的 bleu、rouge 等指標抽取 n-gram 進行匹配,對關鍵資訊的準確性不夠敏感。而 GPT-Eval 雖然和專家評價較為一致,但會帶來高昂的評測成本。
  • 針對這些問題,該研究提出了新的 Detail image caption benchmark 和 evaluation metric,以在較低的成本下實現了對 LVLM 圖像理解能力的準確評估。

在所提出的評測資料集 & 指標的指導下,該研究也探討了發掘 LVLM 自身能力進行 detail image caption 的資料建構方法,有效提升了 detail caption 資料品質。

                              圖一:左側為CAPTURE             圖一:左側為CAPTURE             圖形化

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

資料集
相比類似大小的評測資料集,研究提出的Detail image caption benchmark 文本長度更長,無重複的2-gram 數量明顯更多,包含更豐富的視覺信息:

                              表一:DetailCaps benchmark 統計資料CAPTURE (
CAP
tion evaluation by exTracting and co
U
pling co
RE
information) 指標透過4 步驟進行caption 品質評估。如下圖所示,首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素,緊接著過濾掉沒有實際意義的 objects。之後,透過三階段匹配(精確匹配、近義詞匹配、embedding 匹配)分別計算 obj、attr、rel 元素的匹配得分(F1 分數),加權作為最終結果。
                              圖中:CAPTURE metric             圖二:CAPTURE metric 詳細計算步驟數據合成

在DetailCaps benchmark 和CAPTURE metric 的指導下,該研究提出了一種基於divide-and-conquer 思想發掘LVLM 潛力進行資料合成的方法,有效提升了detail caption 資料品質。此方案首先使用 LVLM 進行全圖 caption 生成,之後使用分割模型(SAM [2])和聚類等過濾方法找到圖中的關鍵位置並將其裁切出來進行局部 caption 生成。文章使用一種word-level 的過濾方法來減少caption 中的幻覺,該方法首先解析(parse)出描述圖中視覺元素的詞和短語,再透過目標檢測模型(Owlv2 [3])過濾掉得分低的元素。最後,將過濾後的全圖 caption、局部 caption 送入 LLM(LLaMA2 [4])融合為最終的影像描述。 豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

實驗

CAPTURE 指標

( -100(人工標註reference caption,人工評估模型在產生caption 分數)和DetailCaps-4870(GPT 標註reference caption,GPT-4 評估模型產生caption 得分)上,對LLaVA-1.5 [5]、CogVLM [6] 和ShareCaptioner [7] 三個模型產生的caption 進行了專家評分,計算各評估指標與專家評估的一致性:

                   

各caption 評估指標和專家評估的一致性透過pearson correlation(線性相關性)、 R^2(絕對值大小)、 Kendall's tau(排序偏序對一致性)和(Per-) Sample (Kendall's) tau(每個樣本單獨計算取平均)指標來衡量。
結果顯示,CAPTURE 在各種指標上都取得了最優的專家評價一致性。在這些指標中,Sample tau 與實際 detail image caption 評估的計算方式最為接近,CAPTURE 也是唯一在這個指標上取得與 GPT4-Eval 接近的方法,在評估的準確率、成本上取得了良好的平衡。
(2)消融分析

研究者也對 CAPTURE 中的各個模組進行了消融分析,並驗證其有效性:豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

                             表三:CAPTURE 各組中的消融分析
) 有效性
🜎但 stop words filtering 會對不同樣例的 detail caption 造成不同的影響,進而導致 pcc、kendall tau 微降。 Soft matching 也提升了 sample tau,同時在 1-R2 分數上有明顯增益作用,將 CAPTURE 預測分數和專家打分數的絕對分數對齊。在加權計算最終得分時,obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都會造成性能下降。

(3)開源LVLM 的detail caption 效能

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

     效能對比

整體來看,InternVL-1.5 是當前表現最好的開源LVLM。從 LLaVA、MiniGemini 結果可以看出,LLM 參數量的提升對模型 detail caption 能力有一致的提升作用。同時,解析度較高、使用高品質 detail caption 進行訓練的模型,效能會更好。

Detail caption 資料建構

基於 detail caption 評估資料集和評測指標,研究者驗證了所提出的 detail caption 資料合成方案的有效性。

(1)Detail caption 合成方法在不同LVLM 上的有效性

如下表所示,本研究提出的detail 3caption 合成方法在LLaVA-1.5-7B、LVA3-1. LLaVA-NEXT-7B 與Mini-Gemini-7B-HD 上取得了一致的detail caption 品質提升:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

       效果

(2)透過Self-loop 進一步提升detail caption 效能

研究者也嘗試透過資料打標-> 模型訓練-> 重新打標的訓練流程進行進一步提升Self-loop 來進一步提昇文本 deLV caption 性能,在四輪loop 中都取得了正面效果。同時,比較開源方案[8] 與本文所提出的word-level 幻覺濾波方案,證明了其設計的有效性:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

           sel效果和消融分析

(3)LVLM 自身打標的detail caption 可提升其整體性能

該研究使用LLaVAcapp.重新打標,並將打標資料用於LLaVA-1.5 的SFT 訓練,在多個benchmark 上取得了一致的效能提升:

                             表七:合成詳細標題資料在LLaVA-1.5-7B模式訓練中的作用參考

[1] 莊力、柴宇洋、卓躍、曲麗珍、Gholamreza Haffari、李飛、季東紅和Quan Hung Tran。事實:忠實一致的文字場景圖解析的基準。 arXiv:2305.17497, 2023
[2] Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Teteun、Spencer White、Hanzi Mao、Whead Rolland、Laura Gustafson、Tete Shaw、Spencer White、Alexander、Alexander C.分割任何東西。 ICCV 2023
[3] Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby。擴展開放詞彙物件偵測。 NIPS 2024
[4] Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shr Bhooctale 等。 Llama 2:開放基礎與微調的聊天模型。 arXiv:2307.09288, 2023
[5] 劉浩天、李春元、李宇恆和李永傑。透過視覺指令調整改進基線。 NeurIPS 2023 指令調優與指令追蹤研討會,2023
[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoy, Yang, Lejuan, X許家事、許斌、李娟子、董玉曉、丁明和唐傑。 Cogvlm:預訓練語言模型的視覺專家。 arXiv:2311.03079, 2023
[7] 陳林、李繼松、董曉義、張潘、何從輝、王嘉琪、趙峰和林大華。 Sharegpt4v:透過更好的標題來改進大型多模式模型。 arXiv:2311.12793, 2023
[8] 張莉,楊彪,劉強,馬志銀,張碩,楊景旭,孫亞波,劉玉良,白翔。 Monkey:影像解析度和文字標籤對於大型多模態模型來說很重要。 arXiv:2311.06607, 2023
豆包大模型團隊
字節跳動豆包大模型團隊成立於2023年致力於,開發業界最先進的AI大模型,成為世界一流的研究團隊和社會發展做出貢獻。

豆包大模型團隊在AI領域擁有長遠的願景與決心,研究方向主題NLP、CV、語音等,在中國、新加坡、美國等地設立實驗室和研究崗位。團隊支援平台充足的數據、運算等資源,在相關領域持續投入,已推出自研通用大模型,提供多模態能力,下游支援豆包、釦子、即夢等50+業務,並透過火山引擎開放給予企業客戶。目前,豆包APP已成為中國市場用戶量最大的AIGC應用程式。歡迎加入位元組跳動豆包大模型團隊。

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

以上是豆包大模型團隊發布全新Detail Image Caption評估基準,提升VLM Caption評測可靠性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn