연구원들은 또한 CAPTURE의 각 모듈에 대해 Ablation 분석을 수행하고 그 효과를 검증했습니다.
표 3: CAPTURE 각 모듈의 Ablation 분석 실험 결과는 중지 단어가 샘플 타우를 효과적으로 향상시키는 것으로 나타났으며 이는 이 모듈의 효율성을 보여줍니다. 그러나 불용어 필터링은 서로 다른 샘플의 세부 캡션에 서로 다른 영향을 미치므로 pcc 및 kendall tau가 약간 감소합니다. 소프트 매칭은 또한 샘플 타우를 향상시키고 1-R2 점수에 상당한 이득 효과가 있어 CAPTURE 예측 점수를 전문가가 득점한 절대 점수와 일치시킵니다. 가중치를 적용하여 최종 점수를 계산할 때 obj:attr:rel의 기본 비율은 5:5:2로 최적이며, 각 요소의 비율을 늘리거나 줄이면 성능이 저하됩니다. (3) 오픈소스 LVLM 상세설명 성능 전체적으로 InternVL-1.5가 현재 성능 최고의 오픈소스 LVLM입니다. LLaVA와 MiniGemini의 결과에서 LLM 매개변수의 수를 늘리면 모델의 세부 캡션 기능이 향상되는 데 일관된 효과가 있음을 알 수 있습니다. 동시에, 더 높은 해상도와 고품질 세부 캡션으로 훈련된 모델이 더 나은 성능을 발휘할 것입니다.
세부자막 평가 데이터셋과 평가지표를 기반으로 연구진은 제안된 세부자막 데이터 합성기법의 유효성을 검증하였다.
(1) 다양한 LVLM에 대한 상세 캡션 합성 방법의 유효성아래 표와 같이 본 연구에서 제안하는 상세 캡션 합성 방법은 LLaVA-1.5-7B, LLaVA에서 효과적이다. -1.5-13B, LLAVA-Next-7B 및 Mini-Gemini-7B-HD는 일관된 세부 캡션 품질 향상을 얻었습니다. 표 5: 서로 다른 LVLM은 이 연구의 세부 캡션 합성 방법을 사용합니다 (2) Self-loop를 통해 세부 캡션 성능 더욱 향상
연구원들도 데이터 라벨링 -> 모델 훈련 -> 학습 과정을 통해 Self-loop을 수행하여 LVLM 디테일을 더욱 향상시키려고 노력했습니다. 캡션 레이블을 다시 지정하면 네 가지 루프 모두에서 성능이 긍정적인 결과를 얻었습니다. 동시에, 오픈 소스 솔루션[8]을 본 기사에서 제안한 단어 수준 환각 필터링 솔루션과 비교하면 설계의 효율성이 입증됩니다. 표 6: 자가 루프 효과 및 절제 분석 세부 캡션 합성 방식
(3) LVLM의 자체 표시 세부 캡션은 전반적인 성능을 향상시킬 수 있습니다.
이 연구에서는 LLaVA-1.5를 사용하여 주어진 세부 사항에 따라 sharegpt4v-100k 데이터를 수행했습니다. 캡션 구성 계획은 LLaVA-1.5의 SFT 교육을 위해 표시된 데이터를 다시 표시하고 사용하여 여러 벤치마크에서 일관된 성능 향상을 달성했습니다. . [1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji, dan Quan Hung Tran. Fakta: Penanda aras untuk penghuraian graf adegan tekstual yang setia dan konsisten. arXiv:2305.17497, 2023[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, dan Wan-Yen Bahagikan apa sahaja. ICCV 2023[3] Matthias Minderer, Alexey Gritsenko, dan Neil Houlsby. Menskalakan pengesanan objek perbendaharaan kata terbuka. NIPS 2024[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Asas terbuka dan model sembang yang diperhalusi. arXiv:2307.09288, 2023[5] Haotian Liu, Chunyuan Li, Yuheng Li dan Yong Jae Lee. Garis dasar yang dipertingkatkan dengan penalaan arahan visual. Bengkel NeurIPS 2023 tentang Penalaan Arahan dan Mengikuti Arahan, 2023[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, dan Jie Tang. Cogvlm: Pakar visual untuk model bahasa terlatih. arXiv:2311.03079, 2023[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao dan Dahua Lin. Sharegpt4v: Memperbaik model berbilang modal besar dengan kapsyen yang lebih baik. arXiv:2311.12793, 2023[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu dan Xiang Bai. Monyet: Peleraian imej dan label teks adalah perkara penting untuk model berbilang modal yang besar. arXiv:2311.06607, 2023豆包大模型团队字节跳动豆包大曢字节跳动豆包大曡 2年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技AI涵盖 NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研天态能力,下游支持豆包、扣子、即梦等 50 + 业务,并通过火山引擎开放给APP
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ
Atas ialah kandungan terperinci Pasukan Model Besar Doubao mengeluarkan penanda aras penilaian Kapsyen Imej Perincian baharu untuk meningkatkan kebolehpercayaan penilaian Kapsyen VLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!