Maison >Périphériques technologiques >IA >Explorez une nouvelle génération de petits modèles qui vont au-delà de GPT 3.5.
À la fin de l'année dernière, OpenAI a lancé ChatGPT au public. Une fois lancée, cette technologie a immédiatement placé les chatbots basés sur l'IA au centre du discours grand public. De nombreux chercheurs ont discuté de la façon dont elle peut changer les affaires et l'éducation. Les débats se succédèrent.
Par la suite, les géants de la technologie ont emboîté le pas et ont investi dans des équipes de recherche scientifique dans leur technologie dite « d'IA générative » (technologie capable de produire des textes de dialogue, des graphiques, etc. ) a également Prêt.
Comme nous le savons tous, ChatGPT est affiné sur la base de la série de modèles GPT-3.5, et nous avons vu de nombreuses recherches suivre de près. Mais dans quelle mesure leur nouvelle étude se compare-t-elle à ChatGPT ? Récemment, dans un article « Multimodal Chain-of-Thought Reasoning in Language Models » publié par Amazon, ils ont proposé le Multimodal-CoT incluant des fonctionnalités visuelles. Cette architecture a bien fonctionné dans le benchmark ScienceQA lorsque le nombre de paramètres était inférieur à 1 milliard. 16 points de pourcentage de plus que GPT-3,5 (75,17 % → 91,68 %), dépassant même de nombreux humains.
Voici une brève introduction au benchmark ScienceQA. Il s'agit du premier ensemble de données scientifiques multimodales de questions et réponses avec des explications détaillées, développé par l'UCLA et l'Allen Institute. pour l'intelligence artificielle (AI2) a proposé qu'il soit principalement utilisé pour tester la capacité de raisonnement multimodal du modèle. Il présente une très riche diversité de domaines, couvrant les domaines des sciences naturelles, des sciences du langage et des sciences sociales, et met en avant des exigences élevées. pour la capacité de raisonnement logique du modèle.
Adresse papier : https://arxiv.org /abs/2302.00923
Adresse du projet : https://github.com/amazon-science/mm-cot
Voyons comment le modèle linguistique d'Amazon surpasse GPT-3.5.
Le grand modèle de langage (LLM) fonctionne bien sur des tâches de raisonnement complexes et est indissociable de la chaîne de pensée (CoT) Aide de Tip. Cependant, les recherches CoT existantes se concentrent uniquement sur les modalités linguistiques. Pour déclencher l’inférence CoT en multimodalité, une solution possible consiste à affiner un petit modèle de langage pour effectuer l’inférence CoT en fusionnant les fonctionnalités visuelles et linguistiques.
Cependant, il a été observé que les petits modèles ont tendance à inventer des choses plus fréquemment que les grands modèles. Ce comportement des modèles est souvent appelé "hallucination")". Une étude précédente de Google a également montré (article Chain-of-Thought Prompting Elicits Reasoning in Large Language Models) que les invites basées sur CoT ne sont utiles que lorsque le modèle comporte au moins 100 milliards de paramètres !
Cela dit, les astuces CoT n'ont pas d'impact positif sur les performances des petits modèles et n'apportent des améliorations de performances que lorsqu'elles sont utilisées avec des modèles de paramètres ∼100B.
Cependant, cet article étudie l'amélioration des performances sur moins d'1 milliard de paramètres. Comment cela se fait-il ? Pour faire simple, cet article propose un Multimodal-CoT qui contient des fonctionnalités visuelles et utilise ce paradigme (Multimodal-CoT) pour trouver le raisonnement CoT dans les multi-modalités.
Multimodal-CoT combine des fonctionnalités visuelles dans un cadre de formation unique pour réduire l'impact des modèles de langage qui ont tendance à produire des modèles d'inférence illusoires. Globalement, ce cadre divise le processus de raisonnement en deux parties : la génération de justifications (trouver des raisons) et le raisonnement de réponses (trouver des réponses).
Multimodal CoT Processus en deux étapes : Utilisation du texte ( question + contexte) et des caractéristiques visuelles pour générer une justification logique. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # DataSet # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # # # # 🎜🎜#Cet article se concentre sur l'ensemble de données ScienceQA, qui intègre des images et du texte dans le contexte. De plus, l'ensemble de données comprend des explications sur les réponses afin que le modèle puisse être affiné pour générer des justifications CoT. De plus, cet article utilise le modèle DETR pour générer des caractéristiques visuelles. Les LM plus petits sont sujets à des hallucinations lors de la génération de CoT/Principes de base. L'auteur spécule que s'il existe une architecture modifiée dans laquelle le modèle peut utiliser les caractéristiques textuelles générées par le LM et les caractéristiques visuelles générées par le modèle d'image, ce sera le cas. plus capable de faire valoir ses arguments et de répondre aux questions. Architecture Dans l'ensemble, nous avons besoin d'un modèle capable de générer des fonctionnalités textuelles et visuelles et de les utiliser pour générer des réponses textuelles. On sait également qu'il existe une sorte d'interaction entre le texte et les caractéristiques visuelles, qui est essentiellement une sorte de mécanisme d'attention conjointe, qui aide à encapsuler les informations existantes dans les deux modalités, ce qui rend l'idée de référence possible. . Pour accomplir tout cela, les auteurs ont choisi le modèle T5, qui possède une architecture encodeur-décodeur, et comme mentionné ci-dessus, le modèle DETR est utilisé pour générer des fonctionnalités visuelles. L'encodeur du modèle T5 est responsable de la génération des fonctionnalités de texte, mais le décodeur du modèle T5 n'utilise pas les fonctionnalités de texte générées par l'encodeur, mais utilise la couche d'interaction de style co-attention proposée par l'auteur. sortir. En regardant le démontage, supposons que H_langage soit la sortie de l'encodeur T5. X_vision est la sortie de DETR. La première étape consiste à s'assurer que les fonctionnalités visuelles et textuelles ont la même taille cachée afin que nous puissions utiliser la couche d'attention. Remarque : tous les extraits de code proviennent du GitHub du journal : https://github.com/amazon-science/mm-cot/blob/main/model.py W_h est essentiellement une couche linéaire, H_vision correspond aux caractéristiques visuelles finales. W_h permet de modifier la taille des fonctionnalités visuelles pour correspondre à la taille des fonctionnalités de texte. Ensuite, nous devons ajouter une couche d'attention afin que les fonctionnalités visuelles et textuelles puissent interagir les unes avec les autres. Pour ce faire, les auteurs utilisent une couche d'attention à tête unique avec H_langage comme vecteur de requête et H_vision comme vecteurs de clé et de valeur. Nous avons maintenant une intégration qui contient des informations provenant de fonctionnalités textuelles et visuelles. Les auteurs utilisent ensuite la fusion fermée pour générer un ensemble final de fonctionnalités qui seront envoyées au décodeur. La fusion fermée comporte deux étapes : self.image_dense = nn.Linear(self.patch_dim, config.d_model)
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size,
kdim=config.hidden_size, vdim=config.hidden_size,
num_heads=1, batch_first=True)
image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
W_I et W_v sont essentiellement deux couches linéaires.
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
Enfin, les fonctionnalités fusionnées sont transmises au décodeur.
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
C'est à peu près la structure que suit l'auteur ! Cependant, n'oubliez pas qu'il y a deux phases. La première étape consiste à générer la justification/CoT. La deuxième étape utilise le CoT produit lors de la première étape pour générer la réponse, comme le montre la figure ci-dessus.
L'auteur a utilisé les poids du modèle UnifiedQA comme point d'initialisation du modèle T5 et l'a affiné sur l'ensemble de données ScienceQA. Ils ont observé que leur méthode Multimodale CoT surpassait toutes les références précédentes, y compris GPT-3.5.
Ce qui est intéressant, c'est que même le modèle de base avec seulement 223 millions de paramètres surpasse GPT-3.5 et les autres modèles Visual QA ! Cela met en évidence la puissance d’une architecture multimodale.
Les auteurs montrent également que leur approche en deux étapes surpasse l'approche en une seule étape.
Le plus grand point à retenir de cet article est la puissance des fonctionnalités multimodales dans la résolution de problèmes liés aux fonctionnalités visuelles et textuelles.
Les auteurs montrent que l'exploitation des caractéristiques visuelles, même un petit modèle de langage (LM), peut produire des chaînes de pensée/raisonnement significatifs avec beaucoup moins d'hallucinations, révélant le rôle des modèles visuels dans le développement de techniques d'apprentissage basées sur les chaînes de pensée. jouer.
D'après les expériences, nous constatons que l'ajout de fonctionnalités visuelles au prix de millions de paramètres peut apporter une plus grande valeur que la mise à l'échelle d'un modèle de texte brut à des milliards de paramètres.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!