Maison >Périphériques technologiques >IA >Le modèle 7B surpasse GPT4-V ! L'Université des sciences et technologies de Hong Kong et d'autres ont publié l'ensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnement
Les réseaux de neurones graphiques (GNN) sont efficaces pour exploiter les informations structurelles des graphiques à des fins d'inférence, mais nécessitent souvent des réglages spécifiques à un domaine pour obtenir des performances optimales, ce qui limite leur capacité à généraliser à différentes tâches.
Les grands modèles de langage (LLM) ont des capacités croisées et de généralisation plus fortes pour le raisonnement graphique, mais ne fonctionnent souvent pas aussi bien que les modèles de réseaux neuronaux graphiques dédiés sur des tâches spécifiques.
Les recherches actuelles sur le raisonnement graphique ignorent souvent l'importance des informations visuelles dans le raisonnement graphique, qu'il s'agisse de réseaux de neurones graphiques traditionnels ou de méthodes de raisonnement graphique basées sur de grands modèles de langage.
Cependant, les humains utilisent des fonctionnalités visuelles pour effectuer des tâches graphiques de manière efficace et précise, telles que déterminer s'il y a des anneaux dans le graphique.
Par conséquent, il est d’une grande importance d’explorer le rôle des informations visuelles des graphiques morphologiques dans le raisonnement graphique.
Plus précisément, dessiner un graphique (Graph) sous forme d'image (Image) peut-il donner au modèle des capacités de raisonnement particulières ? Ces images (appelées Visual Graphs) peuvent-elles améliorer les modèles de raisonnement graphique existants basés sur d'autres modalités ?
Pour répondre à ces questions, l'équipe de recherche de l'Université des sciences et technologies de Hong Kong et de l'Université des sciences et technologies du Sud a construit le premier ensemble de données de questions et réponses d'inférence GITQA contenant des graphiques visuels et l'a utilisé sur des modèles open source tels que GPT-4. turbo, GPT-4V et Vicuna, LLaVA, etc. Des expériences approfondies ont été menées sur des modèles à source fermée, confirmant le rôle de Visual Graph dans le raisonnement graphique et son renforcement mutuel avec des modalités textuelles.
Photos
Adresse papier : https://arxiv.org/abs/2402.02130
Page d'accueil du projet : https://v-graph.github.io/
sur GITQA Dans le test de référence, le modèle multimodal GITA-7B/13B, qui a été affiné sur la base du LLaVA-7B/13B, a démontré des performances de raisonnement graphique supérieures à GPT-4V.
L'équipe de recherche a établi l'ensemble de données GITQA et ses tests de référence correspondants en dessinant des structures graphiques dans des images visuelles de différents styles. L'ensemble de données GITQA contient plus de 423 000 instances de questions et réponses. , chaque instance contient des informations sur la structure du graphique, le texte et le visuel qui se correspondent mutuellement et ses paires de questions et de réponses correspondantes.
L'ensemble de données GITQA contient deux versions : GITQA-Base et GITQA-Aug, parmi lesquelles GITQA-Base ne contient que des images visuelles d'un seul style.
GITQA-Aug est encore plus riche. Il effectue diverses améliorations des données sur les images visuelles, notamment la modification de la disposition, de la forme des points, de la largeur des bords, du style des points, etc., offrant ainsi des performances d'image visuelle plus diversifiées.
Images
Comme le montre la figure 1, le test de référence GITQA contient 8 tâches de raisonnement graphique représentatives : Connectivité (déterminer si deux points du graphique sont connectés), Cycle (déterminer s'il existe un cycle dans le graphique), TS (Trouver l'ordre topologique du graphe), SP (Trouver le chemin le plus court entre deux points du graphe), MaxFlow (Calcul du débit maximum entre deux points du graphe), BGM (Calcul de la correspondance maximale du graphe bipartite), HP (Trouver la correspondance maximale dans le graphe (chemin hamiltonien)) et GNN (simuler le passage du message de GNN).
Images
L'ensemble de données correspondant à chaque tâche est divisé en sous-ensembles de différents niveaux de difficulté en fonction de la complexité de la structure du graphique (les statistiques pertinentes sont présentées dans le tableau 1).
L'équipe de recherche a utilisé l'ensemble de données GITQA-Base selon différents types d'entrée de graphe modal (y compris uniquement du texte (T-Only), vision uniquement (V-Only) et texte plus vision (V+T)), évaluant les modèles de langage à grande échelle populaires à code source fermé et open source (tels que GPT-4 turbo et Vicuna-7B /13B) et les performances de grands modèles de langage multimodaux tels que GPT-4V et LLaVA-7B/13B. comme le montre l'image 2.
Pictures
Plus précisément, les modèles à source fermée GPT-4 et GPT-4V effectuent une inférence à échantillon nul, tandis que pour les modèles open source Vicuna et LLaVA, en gardant les paramètres du modèle de base inchangés, uniquement la partie Projecteur et LoRA a été affinée (en particulier, le modèle LLaVA après réglage fin bimodal visuel + texte a été nommé GITA par le chercheur).
Le tableau 2 résume les résultats des tests pour les huit tâches de raisonnement graphique.
Photos
Comme le montre le tableau 2, la modalité visuelle fonctionne mieux que la modalité texte sur les tâches Cycle et BGM, tandis que sur les cinq autres tâches, ce n'est pas aussi bon comme texte modal. Cela révèle que la vision et le texte présentent chacun des avantages dans la gestion de types spécifiques de tâches de raisonnement graphique. Amélioration mutuelle des modalités visuelles et textuelles
Pour le modèle à source fermée, GPT-4V (V+T) a une précision moyenne beaucoup plus élevée sur huit tâches que GPT-4 Turbo (T uniquement) et GPT-4V (V uniquement ).
Pour les modèles open source (7B, 13B), de même, le modèle GITA formé à l'aide de données bimodales est en moyenne plus performant. Ces observations vérifient que l’utilisation simultanée d’informations visuelles et textuelles peut améliorer les capacités de raisonnement graphique du modèle et obtenir de meilleures performances que les modèles monomodaux.
Plus précisément, GITA-7B (V+T) surpasse LLaVA-7B (V uniquement) et Vicuna-7B (T uniquement) dans presque toutes les tâches. Pour le modèle à source fermée, l’utilisation de la bimodalité a permis d’obtenir la précision la plus élevée sur cinq tâches sur huit. Le modèle LLaVA affiné peut surpasser GPT-4V
Comme le montrent le tableau 2 et la figure 3, les modèles GITA-7B et GITA-13B, c'est-à-dire le modèle LLaVA-7B/13B affiné bimodal, montrent meilleures performances que GPT -4V Amélioration significative des performances de plus de 13 %. Cette énorme amélioration montre que le modèle GITA affiné peut apprendre efficacement d'excellentes capacités de raisonnement graphique à partir de l'ensemble de données GITQA.
Photos
Le tableau 3 montre en outre la précision du test du modèle à différents niveaux de difficulté (la tâche GNN a été omise car elle était trop difficile pour tous les modèles) .
Les performances utilisant la modalité visuelle seule ont surpassé la modalité textuelle et étaient comparables à l'utilisation des deux modalités dans les tâches Cycle et BGM à tous les niveaux de difficulté.
Cependant, pour d'autres tâches, les performances des modèles utilisant uniquement la modalité visuelle diminuent considérablement lorsque la difficulté passe de facile à moyenne ou difficile.
Images
De même, lorsque la difficulté augmente, les modèles utilisant uniquement des modalités de texte et des modalités visuelles + texte connaîtront également d'importantes baisses de performances sur ces tâches.
Pour la tâche Connectivité, GITA-7B (Visuel + Texte) et GITA-13B (Visuel + Texte) affichent des performances comparables aux trois niveaux de défi.
Cependant, ce modèle cohérent n'est pas observé dans GPT-4V (Visuel + Texte), car ses performances diminuent avec l'augmentation des niveaux de difficulté.
L'équipe de recherche a également exploré l'effet de stratégies spéciales d'augmentation des données pour affiner le modèle.
Sur la base de différentes stratégies d'amélioration, les chercheurs ont divisé l'ensemble de données GITQA-Aug en quatre sous-ensembles d'amélioration : ensemble de données d'amélioration de la disposition, ensemble de données d'amélioration de la forme des nœuds, ensemble de données d'amélioration de la largeur des bords et ensemble de données d'amélioration du style des nœuds.
Photos
Les chercheurs ont affiné séparément les quatre sous-ensembles améliorés du modèle LLaVA-7B qui utilise uniquement les informations cartographiques visuelles. La comparaison de ses performances d'inférence avec celles d'avant l'amélioration des données est présentée dans le tableau 4. .
On voit clairement que la capacité de raisonnement du modèle pour des tâches difficiles sur l'ensemble de données amélioré par la mise en page s'est considérablement améliorée (SP a augmenté de 64,8 %, HP a augmenté de 69,63 %).
Les trois autres stratégies d'augmentation des données conduisent en fait à une dégradation des performances.
Plus précisément, le modèle obtient d'excellents résultats sur l'ensemble de mise en page augmenté, qui est plus de 11 % supérieur à l'ensemble GITQA-Base. En comparaison, les résultats moyens pour les huit tâches des autres ensembles augmentés sont environ 5 % inférieurs à ceux de l'ensemble de base
Image
Ces résultats suggèrent que l'augmentation des données basée sur la mise en page fournit une perspective visuelle plus efficace pour le raisonnement graphique. En outre, les chercheurs ont également testé les performances du raisonnement Visual Graph basé sur chaque style au sein du même groupe et pour chaque stratégie d'amélioration. Comme le montre le tableau 5, cela montre que le modèle n'a pas de préférence de style évidente.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!