) 有效性
🜎但 stop words filtering 會對不同樣例的 detail caption 造成不同的影響,進而導致 pcc、kendall tau 微降。 Soft matching 也提升了 sample tau,同時在 1-R2 分數上有明顯增益作用,將 CAPTURE 預測分數和專家打分數的絕對分數對齊。在加權計算最終得分時,obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都會造成性能下降。
(3)開源LVLM 的detail caption 效能
整體來看,InternVL-1.5 是當前表現最好的開源LVLM。從 LLaVA、MiniGemini 結果可以看出,LLM 參數量的提升對模型 detail caption 能力有一致的提升作用。同時,解析度較高、使用高品質 detail caption 進行訓練的模型,效能會更好。 Detail caption 資料建構
基於 detail caption 評估資料集和評測指標,研究者驗證了所提出的 detail caption 資料合成方案的有效性。
(1)Detail caption 合成方法在不同LVLM 上的有效性
如下表所示,本研究提出的detail 3caption 合成方法在LLaVA-1.5-7B、LVA3-1. LLaVA-NEXT-7B 與Mini-Gemini-7B-HD 上取得了一致的detail caption 品質提升:
(2)透過Self-loop 進一步提升detail caption 效能
研究者也嘗試透過資料打標-> 模型訓練-> 重新打標的訓練流程進行進一步提升Self-loop 來進一步提昇文本 deLV caption 性能,在四輪loop 中都取得了正面效果。同時,比較開源方案[8] 與本文所提出的word-level 幻覺濾波方案,證明了其設計的有效性:
(3)LVLM 自身打標的detail caption 可提升其整體性能
該研究使用LLaVAcapp.重新打標,並將打標資料用於LLaVA-1.5 的SFT 訓練,在多個benchmark 上取得了一致的效能提升: 表七:合成詳細標題資料在LLaVA-1.5-7B模式訓練中的作用參考[1] 莊力、柴宇洋、卓躍、曲麗珍、Gholamreza Haffari、李飛、季東紅和Quan Hung Tran。事實:忠實一致的文字場景圖解析的基準。 arXiv:2305.17497, 2023[2] Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Teteun、Spencer White、Hanzi Mao、Whead Rolland、Laura Gustafson、Tete Shaw、Spencer White、Alexander、Alexander C.分割任何東西。 ICCV 2023[3] Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby。擴展開放詞彙物件偵測。 NIPS 2024[4] Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shr Bhooctale 等。 Llama 2:開放基礎與微調的聊天模型。 arXiv:2307.09288, 2023[5] 劉浩天、李春元、李宇恆和李永傑。透過視覺指令調整改進基線。 NeurIPS 2023 指令調優與指令追蹤研討會,2023[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoy, Yang, Lejuan, X許家事、許斌、李娟子、董玉曉、丁明和唐傑。 Cogvlm:預訓練語言模型的視覺專家。 arXiv:2311.03079, 2023[7] 陳林、李繼松、董曉義、張潘、何從輝、王嘉琪、趙峰和林大華。 Sharegpt4v:透過更好的標題來改進大型多模式模型。 arXiv:2311.12793, 2023[8] 張莉,楊彪,劉強,馬志銀,張碩,楊景旭,孫亞波,劉玉良,白翔。 Monkey:影像解析度和文字標籤對於大型多模態模型來說很重要。 arXiv:2311.06607, 2023字節跳動豆包大模型團隊成立於2023年致力於,開發業界最先進的AI大模型,成為世界一流的研究團隊和社會發展做出貢獻。
豆包大模型團隊在AI領域擁有長遠的願景與決心,研究方向主題NLP、CV、語音等,在中國、新加坡、美國等地設立實驗室和研究崗位。團隊支援平台充足的數據、運算等資源,在相關領域持續投入,已推出自研通用大模型,提供多模態能力,下游支援豆包、釦子、即夢等50+業務,並透過火山引擎開放給予企業客戶。目前,豆包APP已成為中國市場用戶量最大的AIGC應用程式。歡迎加入位元組跳動豆包大模型團隊。
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ