연구원들은 또한 CAPTURE의 각 모듈에 대해 Ablation 분석을 수행하고 그 효과를 검증했습니다.
표 3: CAPTURE 각 모듈의 Ablation 분석 실험 결과는 중지 단어가 샘플 타우를 효과적으로 향상시키는 것으로 나타났으며 이는 이 모듈의 효율성을 보여줍니다. 그러나 불용어 필터링은 서로 다른 샘플의 세부 캡션에 서로 다른 영향을 미치므로 pcc 및 kendall tau가 약간 감소합니다. 소프트 매칭은 또한 샘플 타우를 향상시키고 1-R2 점수에 상당한 이득 효과가 있어 CAPTURE 예측 점수를 전문가가 득점한 절대 점수와 일치시킵니다. 가중치를 적용하여 최종 점수를 계산할 때 obj:attr:rel의 기본 비율은 5:5:2로 최적이며, 각 요소의 비율을 늘리거나 줄이면 성능이 저하됩니다. (3) 오픈소스 LVLM 상세설명 성능 전체적으로 InternVL-1.5가 현재 성능 최고의 오픈소스 LVLM입니다. LLaVA와 MiniGemini의 결과에서 LLM 매개변수의 수를 늘리면 모델의 세부 캡션 기능이 향상되는 데 일관된 효과가 있음을 알 수 있습니다. 동시에, 더 높은 해상도와 고품질 세부 캡션으로 훈련된 모델이 더 나은 성능을 발휘할 것입니다.
세부자막 평가 데이터셋과 평가지표를 기반으로 연구진은 제안된 세부자막 데이터 합성기법의 유효성을 검증하였다.
(1) 다양한 LVLM에 대한 상세 캡션 합성 방법의 유효성아래 표와 같이 본 연구에서 제안하는 상세 캡션 합성 방법은 LLaVA-1.5-7B, LLaVA에서 효과적이다. -1.5-13B, LLAVA-Next-7B 및 Mini-Gemini-7B-HD는 일관된 세부 캡션 품질 향상을 얻었습니다. 표 5: 서로 다른 LVLM은 이 연구의 세부 캡션 합성 방법을 사용합니다 (2) Self-loop를 통해 세부 캡션 성능 더욱 향상
연구원들도 데이터 라벨링 -> 모델 훈련 -> 학습 과정을 통해 Self-loop을 수행하여 LVLM 디테일을 더욱 향상시키려고 노력했습니다. 캡션 레이블을 다시 지정하면 네 가지 루프 모두에서 성능이 긍정적인 결과를 얻었습니다. 동시에, 오픈 소스 솔루션[8]을 본 기사에서 제안한 단어 수준 환각 필터링 솔루션과 비교하면 설계의 효율성이 입증됩니다. 표 6: 자가 루프 효과 및 절제 분석 세부 캡션 합성 방식
(3) LVLM의 자체 표시 세부 캡션은 전반적인 성능을 향상시킬 수 있습니다.
이 연구에서는 LLaVA-1.5를 사용하여 주어진 세부 사항에 따라 sharegpt4v-100k 데이터를 수행했습니다. 캡션 구성 계획은 LLaVA-1.5의 SFT 교육을 위해 표시된 데이터를 다시 표시하고 사용하여 여러 벤치마크에서 일관된 성능 향상을 달성했습니다. 表七:합성 세부 캡션 数据在 LLaVA-1.5-7B 模型训练中 的 작용[1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji 및 Quan Hung Tran. 사실: 충실하고 일관된 텍스트 장면 그래프 구문 분석을 위한 벤치마크입니다. arXiv:2305.17497, 2023[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. 무엇이든 분류하세요. ICCV 2023[3] Matthias Minderer, Alexey Gritsenko, Neil Houlsby. 개방형 어휘 객체 감지 확장. NIPS 2024[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale 등 Llama 2: 개방형 기반 및 미세 조정된 채팅 모델. arXiv:2307.09288, 2023[5] Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee. 시각적 지침 조정을 통해 기준선을 개선했습니다. NeurIPS 2023 교육 튜닝 및 교육 후속 워크숍, 2023[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding 및 Jie Tang. Cogvlm: 사전 학습된 언어 모델을 위한 시각적 전문가입니다. arXiv:2311.03079, 2023[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao 및 Dahua Lin. Sharegpt4v: 더 나은 캡션으로 대규모 다중 모드 모델을 개선합니다. arXiv:2311.12793, 2023[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu 및 Xiang Bai. Monkey: 이미지 해상도와 텍스트 라벨은 대규모 다중 모드 모델에 중요한 요소입니다. arXiv:2311.06607, 2023
豆包大模型团队
字节跳动豆包大模型团队成立于 2023년开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发贡献。豆包大模型团队는 AI 领域拥有长期愿景与决心 ,研究方向涵盖 NLP、CV、语음을 等,중國、新加坡、美國等地设有实验室와研究岗位。团队依托平台充足的数据, 计算等资源, 下游支持, 下游支持豆包、扣子、即梦等 50 + 业务,并通过화山引擎开放给企业客户。目前,豆包 APP 已成为中國最大的AIGC 应用。欢迎加入字节跳动豆包大模型团队。https://mp .weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ 위 내용은 Doubao Big Model Team은 VLM 캡션 평가의 신뢰성을 향상시키기 위해 새로운 세부 이미지 캡션 평가 벤치마크를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!