La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Le modèle de langage visuel (VLM) actuel effectue principalement une évaluation des performances via un formulaire de questions et réponses d'assurance qualité, mais manque d'évaluation de la capacité de compréhension de base du modèle, tel que les détails légende de l'imageUne mesure fiable des performances. En réponse à ce problème, l'Académie chinoise des sciences, l'Université de Pékin et l'équipe Byte Doubao Big Model ont publié l'ensemble de données DetailCaps-4870 et proposé un indice d'évaluation efficace CAPTURE, qui a obtenu le plus haut consensus d'évaluation d'experts parmi l'open source. indices d'évaluation des performances et obtient des résultats comparables à GPT-Eval à faible coût.
- Papier : https://arxiv.org/abs/2405.19092
- Ensemble de données : https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
- Code : https://github.com/foundation-multimodal-models/CAPTURE
L'évaluation actuelle du LVLM (grand modèle de langage de vision) présente les problèmes suivants :
- La solution d'évaluation LVLM existante adopte principalement le formulaire VQA, qui est grandement affecté par la capacité à suivre les instructions, et la conception des invites d'assurance qualité peut facilement introduire des préjugés humains.
- La tâche de légende d'image peut évaluer efficacement la capacité de compréhension du modèle, mais les références de légende existantes utilisent principalement des légendes courtes comme vérité terrain, ce qui est complètement obsolète à l'ère LVLM.
- Dans le même temps, les indicateurs d'évaluation des légendes d'images existants ont une mauvaise cohérence avec les résultats d'évaluation d'experts tels que les humains et le GPT. Les indicateurs couramment utilisés tels que les n-grammes d'extrait de bleu et de rouge pour la correspondance, qui ne sont pas assez sensibles. à l'exactitude des informations clés. Bien que GPT-Eval soit plus cohérent avec une évaluation par des experts, il entraînera des coûts d'évaluation élevés.
En réponse à ces problèmes, cette recherche propose un nouveau benchmark de légende d'image détaillée et une nouvelle métrique d'évaluation pour obtenir une évaluation précise des capacités de compréhension des images LVLM à moindre coût. Sous la direction de l'ensemble de données et des indicateurs d'évaluation proposés, cette recherche a également exploré la méthode de construction de données consistant à explorer les propres capacités de LVLM en matière de légende d'image détaillée, améliorant ainsi efficacement la qualité des données de légende détaillée. C Figure 1 : Le côté gauche est l'affichage de l'instance Capture Metric, et le côté droit est la méthode de construction de légende détaillée, le benchmark de légende d'image détaillée proposé par cette étude a une longueur de texte plus longue, un nombre significativement plus grand de non répétitifs 2. -grammes, et contient des informations visuelles plus riches : Tableau 1 : Évaluation des informations statistiques de référence DetailCaps par ex
Tracing et coUpling co RE information) effectue une évaluation de la qualité des sous-titres en 4 étapes. Comme le montre la figure ci-dessous, utilisez d'abord Factual Praser [1] pour extraire les éléments d'objet, d'attribut et de relation dans la légende détaillée, puis filtrez les objets qui n'ont aucune signification pratique. Après cela, les scores de correspondance (scores F1) des éléments obj, attr et rel sont calculés selon trois étapes de correspondance (correspondance exacte, correspondance de synonymes et correspondance d'intégration) et pondérés en tant que résultat final.
Sous la direction du benchmark DetailCaps et de la métrique CAPTURE, cette recherche propose une méthode basée sur la méthode diviser pour régner qui explore le potentiel de LVLM pour la synchronisation des données. thèse, améliorant efficacement la qualité des données de légende détaillée . Cette solution utilise d'abord LVLM pour générer des légendes d'image complète, puis utilise des méthodes de filtrage telles que le modèle de segmentation (SAM [2]) et le clustering pour trouver les positions clés dans l'image et les recadrer pour la génération de légendes locales. L'article utilise une méthode de filtrage au niveau des mots pour réduire les hallucinations dans les légendes. Cette méthode analyse d'abord les mots et les phrases qui décrivent les éléments visuels de l'image, puis filtre les objets à faible score via un modèle de détection de cible (Owlv2 [3]. ]). Éléments. Enfin, la légende filtrée de l’image complète et la légende locale sont envoyées au LLM (LLaMA2 [4]) pour être fusionnées dans la description finale de l’image. ExpérienceIndicateur CAPTURE
(1) CAPTURE vs autres indicateurs de légende
Cette étude est en DetailCaps -1 00 (annotation manuelle du libellé de référence, évaluation manuelle du modèle Les légendes générées par trois modèles : LLaVA-1.5 [5], CogVLM [6] et ShareCaptioner [7] ont été testées sur le score des Experts et calculent la cohérence entre chaque indicateur d'évaluation et l'évaluation experte : ? Indicateurs d'évaluation La cohérence avec l'évaluation d'experts est mesurée par la corrélation de Pearson (corrélation linéaire), R^2 (taille absolue), le tau de Kendall (cohérence des paires d'ordres partiels de classement) et le tau (par) échantillon (de Kendall) (chaque échantillon est calculé séparément moyenne) les indicateurs sont mesurés.
Les résultats montrent que CAPTURE a atteint la meilleure cohérence d'évaluation experte dans divers indicateurs. Parmi ces indicateurs, la méthode de calcul de Sample tau est la plus proche de l'évaluation réelle des légendes d'images détaillées. CAPTURE est également la seule méthode proche de GPT4-Eval sur cet indicateur, permettant d'obtenir un bon équilibre entre la précision et le coût de l'évaluation.
Les chercheurs ont également effectué une analyse d'ablation sur chaque module de CAPTURE et vérifié son efficacité : Tableau 3 : Analyse d'ablation de chaque module de CAPTURE Les résultats expérimentaux montrent que les mots vides améliorent efficacement l'échantillon tau, ce qui illustre l'efficacité de ce module. Cependant, le filtrage des mots vides aura des effets différents sur la légende détaillée des différents échantillons, entraînant une légère diminution du pcc et du kendall tau. La correspondance douce améliore également le tau de l'échantillon et a un effet de gain significatif sur le score 1-R2, alignant le score de prédiction CAPTURE sur le score absolu obtenu par les experts. Lors du calcul du score final de manière pondérée, le rapport par défaut obj:attr:rel est de 5:5:2, ce qui est optimal. L'augmentation ou la diminution de la proportion de chaque élément entraînera une dégradation des performances. (3) Performances de légende détaillées du LVLM open source Dans l'ensemble, InternVL-1.5 est la performance actuelle du meilleur LVLM open source. Il ressort des résultats de LLaVA et MiniGemini que l'augmentation du nombre de paramètres LLM a un effet constant sur l'amélioration des capacités de légende détaillée du modèle. Dans le même temps, les modèles avec une résolution plus élevée et formés avec des légendes détaillées de haute qualité fonctionneront mieux.
Structure des données de légende détaillée Sur la base de l'ensemble de données d'évaluation de légende détaillée et des indicateurs d'évaluation, les chercheurs ont vérifié l'efficacité du schéma de synthèse de données de légende détaillée proposé.
(1) L'efficacité de la méthode de synthèse de légende détaillée sur différents LVLM
Comme le montre le tableau ci-dessous, la méthode de synthèse de légende détaillée proposée dans cette étude est efficace sur LLaVA-1.5-7B, LLaVA -1.5-13B, LLaVA-NEXT-7B et Mini-Gemini-7B-HD ont obtenu une amélioration constante de la qualité des sous-titres détaillés : -- à obtenir une amélioration cohérente de la qualité des légendes détaillées sur LLaVA-NEXT-7B et Mini- Gemini-7B-HD : (2) Améliorer encore les performances des légendes détaillées grâce à l'auto-boucle
Les chercheurs ont également essayé d'améliorer davantage les détails LVLM en effectuant une auto-boucle via le processus de formation de l'étiquetage des données -> formation du modèle -> légende de réétiquetage Les performances ont obtenu des résultats positifs dans les quatre boucles. Dans le même temps, comparer la solution open source [8] avec la solution de filtrage des hallucinations au niveau des mots proposée dans cet article prouve l'efficacité de sa conception : Tableau 6 : Effet de boucle automatique et analyse d'ablation de le schéma de synthèse de la légende détaillée (3) La légende détaillée auto-marquée de LVLM peut améliorer ses performances globales Cette étude a utilisé LLaVA-1.5 pour analyser les données sharegpt4v-100k en fonction des détails donnés plan de construction de la légende. Re-marqué et utilisé les données marquées pour la formation SFT de LLaVA-1.5, obtenant des améliorations constantes des performances sur plusieurs benchmarks :
表七:合成 légende détaillée 数据在 LLaVA-1.5-7B [1] Zhuang Li, Yuyang Chai, Terry Zhuo Yue , Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji et Quan Hung Tran. Factuel : une référence pour une analyse fidèle et cohérente des graphiques de scènes textuelles. arXiv : 2305.17497, 2023[2] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segmentez n'importe quoi. ICCV 2023[3] Matthias Minderer, Alexey Gritsenko et Neil Houlsby. Mise à l'échelle de la détection d'objets à vocabulaire ouvert. NIPS 2024[4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2 : fondation ouverte et modèles de discussion affinés. arXiv : 2307.09288, 2023[5] Haotian Liu, Chunyuan Li, Yuheng Li et Yong Jae Lee. Lignes de base améliorées avec réglage des instructions visuelles. Atelier NeurIPS 2023 sur le réglage et le suivi des instructions, 2023[6] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding et Jie Tang. Cogvlm : expert visuel pour les modèles de langage pré-entraînés. arXiv : 2311.03079, 2023[7] Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao et Dahua Lin. Sharegpt4v : amélioration des grands modèles multimodaux avec de meilleures légendes. arXiv : 2311.12793, 2023[8] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu et Xiang Bai. Monkey : La résolution de l'image et l'étiquette du texte sont des éléments importants pour les grands modèles multimodaux. arXiv:2311.06607, 2023字节跳动豆包大模型团队成立于 2023年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。
豆包大模型团队在 AI 领域拥有长期愿景与决心,研究方向涵盖 NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等 50 + 业务,并通过火山引擎开放给Il s'agit d'une application pour l'application AIGC. 。https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Déclaration:Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn