Maison >Périphériques technologiques >IA >L'équipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA

L'équipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-07-17 21:57:301444parcourir

Les grands modèles linguistiques (LLM) actuels tels que GPT4 ont montré d'excellentes capacités multimodales en suivant des instructions ouvertes à partir d'une image. Cependant, les performances de ces modèles dépendent fortement des choix de structure du réseau, des données de formation et des stratégies de formation, mais ces choix n'ont pas été largement discutés dans la littérature précédente. De plus, il existe actuellement un manque de références appropriées pour évaluer et comparer ces modèles, ce qui limite le développement de LLM multimodaux.

Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA Photos

Papier : https://arxiv.org/abs/2307.02469
Site Web : https://lynx-llm.github.io/
Code : https : //github.com/bytedance/lynx-llm

Dans cet article, l'auteur mène une étude systématique et complète sur la formation de tels modèles sous des aspects à la fois quantitatifs et qualitatifs. Plus de 20 variantes ont été mises en place. Pour la structure du réseau, différents squelettes de LLM et conceptions de modèles ont été comparés ; pour les données de formation, l'impact des données et des stratégies d'échantillonnage a été étudié en termes d'instructions, l'effet de diverses invites sur le modèle ; l’instruction suivant la capacité a été explorée. Pour les benchmarks, l'article propose pour la première fois Open-VQA, un ensemble d'évaluation de questions-réponses visuelles ouvertes comprenant des tâches d'image et de vidéo.

Sur la base des conclusions expérimentales, l'auteur a proposé Lynx, qui montre la compréhension multimodale la plus précise tout en conservant la meilleure multimodalité par rapport au modèle open source existant de style GPT4 Capacité générative.

Schéma d'évaluation

Différent des tâches typiques de langage visuel, le principal défi de l'évaluation des modèles de style GPT4 est d'équilibrer les performances des capacités de génération de texte et de la précision de la compréhension multimodale. Pour résoudre ce problème, les auteurs proposent un nouveau benchmark Open-VQA incluant des données vidéo et image, et mènent une évaluation complète des modèles open source actuels.

Plus précisément, deux schémas d'évaluation quantitative sont adoptés :

Collecter un ensemble de tests Open Visual Question Answering (Open-VQA), qui contient des informations sur les objets, l'OCR, le comptage, le raisonnement, la reconnaissance des actions et l'ordre temporel. .et d'autres catégories de questions. Contrairement à l'ensemble de données VQA, qui comporte des réponses standard, les réponses de l'Open-VQA sont ouvertes. Pour évaluer les performances sur Open-VQA, GPT4 est utilisé comme discriminateur et les résultats sont cohérents à 95 % avec une évaluation humaine.
De plus, l'auteur a utilisé l'ensemble de données OwlEval fourni par mPLUG-owl [1] pour évaluer la capacité de génération de texte du modèle. Bien qu'il ne contienne que 50 images et 82 questions, il couvre la génération d'histoires, la génération de publicités, génération de code, etc. Diverses questions et recrutement d'annotateurs humains pour noter les performances des différents modèles.

Conclusion

Afin d'étudier en profondeur la stratégie de formation des LLM multimodaux, l'auteur part principalement de la structure du réseau (réglage fin des préfixes/attention croisée), des données de formation (sélection des données et rapport de combinaison), instructions (instruction unique/plus de vingt variantes ont été définies dans divers aspects tels qu'une indication diversifiée), modèle LLM (LLaMA [5]/Vicuna [6]), pixels d'image (420/224), etc., et les principales conclusions suivantes ont été tirées à travers des expériences :

La capacité de suivi d'instruction des LLM multimodaux n'est pas aussi bonne que celle des LLM. Par exemple, InstructBLIP [2] a tendance à générer des réponses courtes quelles que soient les instructions de saisie, tandis que d'autres modèles ont tendance à générer des phrases longues quelles que soient les instructions, ce qui, selon les auteurs, est dû au manque de réponses multiples diversifiées et de haute qualité. modalité causée par les données de commande.
La qualité des données d'entraînement est cruciale pour les performances du modèle. Sur la base des résultats d'expériences sur différentes données, il a été constaté que l'utilisation d'une petite quantité de données de haute qualité est plus efficace que l'utilisation de données bruitées à grande échelle. L'auteur estime que c'est la différence entre la formation générative et la formation contrastive, car la formation générative apprend directement la distribution conditionnelle des mots plutôt que la similitude entre le texte et les images. Par conséquent, pour de meilleures performances du modèle, deux choses doivent être remplies en termes de données : 1) contenir un texte fluide de haute qualité 2) le contenu du texte et de l'image est bien aligné ;
Les quêtes et les invites sont essentielles aux capacités de tir zéro. L'utilisation de diverses tâches et instructions peut améliorer la capacité de génération de tir nul du modèle sur des tâches inconnues, ce qui est cohérent avec les observations dans les modèles en texte brut.
Il est important d’équilibrer l’exactitude et les capacités de génération de langage. Si le modèle est sous-entraîné sur les tâches en aval (telles que VQA), il est plus susceptible de générer du contenu fabriqué qui ne correspond pas à l'entrée visuelle et si le modèle est surentraîné sur les tâches en aval, il aura tendance à générer des réponses courtes ; et ne pourra pas suivre les instructions de l'utilisateur, générer des réponses plus longues.
Prefix-finetuning (PT) est actuellement la meilleure solution pour l'adaptation multimodale des LLM. Dans les expériences, le modèle avec structure de réglage fin des préfixes peut améliorer la capacité à suivre diverses instructions plus rapidement et est plus facile à entraîner que la structure du modèle avec attention croisée (CA). (Le réglage des préfixes et l'attention croisée sont deux structures modèles, voir la section d'introduction du modèle Lynx pour plus de détails)

Modèle Lynx

L'auteur a proposé Lynx (猞猁)——formation en deux étapes GPT4 -modèle de style avec réglage fin du préfixe. Dans la première étape, environ 120 M paires image-texte sont utilisées pour aligner les intégrations visuelles et linguistiques ; dans la deuxième étape, 20 images ou vidéos sont utilisées pour des tâches multimodales et des données de traitement du langage naturel (NLP) pour ajuster le modèle. capacités de suivi de commandes.

Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA Photos

La structure globale du modèle Lynx est présentée dans la figure 1 ci-dessus.

L'entrée visuelle est traitée par l'encodeur visuel pour obtenir des jetons visuels (jetons) $$W_v$$ Après le mappage, elle est épissée avec les jetons d'instruction $$W_l$$ comme entrée des LLM. structure est appelée dans cet article. Il s'agit de "prefix-finetuning" pour la distinguer de la structure cross-attention utilisée par Flamingo [3].

De plus, les auteurs ont découvert que les coûts de formation peuvent être encore réduits en ajoutant Adaptateur après certaines couches de LLM gelés.

Effet de modèle

L'auteur a évalué les performances des modèles LLM multimodaux open source existants sur Évaluation manuelle Open-VQA, Mme [4] et OwlEval (voir le tableau ci-dessous pour les résultats, et voir le document détaillé de l’évaluation). On peut voir que le modèle Lynx a obtenu les meilleures performances dans les tâches de compréhension d'images et de vidéos Open-VQA, d'évaluation manuelle OwlEval et de tâches Mme Perception. Parmi eux, InstructBLIP atteint également des performances élevées dans la plupart des tâches, mais sa réponse est trop courte. En comparaison, dans la plupart des cas, le modèle Lynx fournit des raisons concises pour soutenir la réponse basée sur la bonne réponse. convivial (voir la section Affichage des cas ci-dessous pour certains cas).

1. Les résultats des indicateurs sur l'ensemble de tests d'images Open-VQA sont présentés dans le tableau 1 ci-dessous :

Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA Photos

2 Les résultats des indicateurs sur l'ensemble de tests vidéo Open-VQA sont tels qu'indiqués. dans le tableau 1 ci-dessous 2 indiqué.

Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA photos

3. Sélectionnez le modèle avec le meilleur score dans Open-VQA pour effectuer une évaluation manuelle des effets sur l'ensemble d'évaluation OwlEval. Les résultats sont présentés dans la figure 4 ci-dessus. Il ressort des résultats de l'évaluation manuelle que le modèle Lynx présente les meilleures performances de génération de langage.

Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA Images

4 Dans le test de référence Mme, les tâches de la classe Perception ont obtenu les meilleures performances, parmi lesquelles 7 des 14 sous-tâches de la classe ont obtenu les meilleures performances. (Voir l'annexe de l'article pour les résultats détaillés) -Boîtier vidéo VQA

Résumé

Dans cet article, à travers des expériences sur plus de vingt variantes de LLM multimodaux, l'auteur détermine le modèle Lynx avec le réglage fin des préfixes comme structure principale et donne un plan d'évaluation Open-VQA avec réponses ouvertes. Les résultats expérimentaux montrent que le modèle Lynx offre la compréhension multimodale la plus précise tout en conservant les meilleures capacités de génération multimodale. Léquipe Byte a proposé le modèle Lynx : compréhension des LLM multimodaux et liste de génération cognitive SoTA

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

table github nlp ocr https llama

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Xiaomi remporte à nouveau la première place dans une compétition internationale : la traduction IA apporte une grande contributionArticle suivant：Xiaomi remporte à nouveau la première place dans une compétition internationale : la traduction IA apporte une grande contribution

Articles Liés

Voir plus