


Les modèles à grande échelle font le saut entre le langage et la vision, promettant de comprendre et de générer de manière transparente du contenu texte et image. Dans une série d'études récentes, l'intégration de fonctionnalités multimodales est non seulement une tendance croissante, mais a déjà conduit à des avancées clés allant des conversations multimodales aux outils de création de contenu. Les grands modèles de langage ont démontré des capacités inégalées en matière de compréhension et de génération de textes. Cependant, générer simultanément des images avec des récits textuels cohérents reste encore un domaine à développer
Récemment, une équipe de recherche de l'Université de Californie à Santa Cruz a proposé MiniGPT-5, une méthode basée sur le concept de « vote générateur » technologie de génération de langage visuel entrelacé.
- Adresse papier : https://browse.arxiv.org/pdf/2310.02239v1.pdf
- Adresse du projet : https://github.com/eric- ai-lab/MiniGPT-5
Combinant un mécanisme de diffusion stable avec LLM via un jeton visuel spécial « vote génératif », MiniGPT-5 annonce une nouvelle voie pour un modèle de génération multimodale qualifié. Dans le même temps, la méthode de formation en deux étapes proposée dans cet article souligne l’importance de l’étape de base sans description, permettant au modèle de prospérer même lorsque les données sont rares. La phase générale de la méthode ne nécessite pas d'annotations spécifiques au domaine, ce qui distingue notre solution des méthodes existantes. Afin de garantir que le texte et les images générés sont harmonieux, la stratégie de double perte de cet article entre en jeu, qui est encore renforcée par la méthode de vote génératif et la méthode de classification
Sur la base de ces techniques, ce travail marque une approche transformatrice. En utilisant ViT (Vision Transformer) et Qformer et un grand modèle de langage, l'équipe de recherche convertit les entrées multimodales en votes génératifs et les associe de manière transparente à Stable Diffusion2.1 haute résolution pour obtenir une génération d'images contextuelles. Cet article combine des images comme entrée auxiliaire avec des méthodes d'ajustement des instructions et est pionnier dans l'utilisation des pertes de génération de texte et d'images, élargissant ainsi la synergie entre le texte et la vision
MiniGPT-5 correspond à des modèles tels que les contraintes CLIP, fusionnant intelligemment le modèle de diffusion avec MiniGPT-4 permet d'obtenir de meilleurs résultats multimodaux sans s'appuyer sur des annotations spécifiques au domaine. Plus important encore, notre stratégie peut tirer parti des avancées des modèles de base du langage visuel multimodal et fournir un nouveau modèle pour améliorer les capacités génératives multimodales.
Comme le montre la figure ci-dessous, en plus des capacités originales de compréhension multimodale et de génération de texte, MiniGPT5 peut également fournir une sortie multimodale raisonnable et cohérente :
La contribution de cet article est se reflète sous trois aspects :
- Il est proposé d'utiliser un encodeur multimodal, qui représente une nouvelle technique générale et qui s'est avérée plus efficace que le LLM et les Vokens génératifs inverses, et de le combiner avec la diffusion stable pour générer des sortie visuelle et linguistique (un modèle de langage multimodal capable de génération multimodale).
- met en évidence une nouvelle stratégie de formation en deux étapes pour une génération multimodale sans description. L'étape d'alignement monomodale obtient des caractéristiques visuelles alignées sur le texte de haute qualité à partir d'un grand nombre de paires texte-image. La phase d'apprentissage multimodale comprend une nouvelle tâche de formation, une génération de contexte rapide, garantissant que les invites visuelles et textuelles sont bien coordonnées et générées. L'ajout d'un guidage sans classificateur pendant la phase de formation améliore encore la qualité de la génération.
- Comparé à d'autres modèles génératifs multimodaux, MiniGPT-5 atteint des performances de pointe sur l'ensemble de données CC3M. MiniGPT-5 établit également de nouvelles références sur des ensembles de données bien connus tels que VIST et MMDialog.
Maintenant, comprenons en détail le contenu de cette recherche
Aperçu de la méthode
Afin de permettre de grands modèles de langage dotés de capacités de génération multimodale, les chercheurs ont introduit un cadre structuré pour Des modèles de langage multimodaux pré-entraînés à grande échelle et des modèles de génération de texte en image sont intégrés. Afin de résoudre les différences entre les différents domaines de modèles, ils ont introduit des symboles visuels spéciaux « votes génératifs » (votes génératifs), qui peuvent être entraînés directement sur les images originales. De plus, une méthode de formation en deux étapes est avancée, combinée à une stratégie d'amorçage sans classificateur, pour améliorer encore la qualité de la génération.
Étape d'entrée multimodale
Les progrès récents dans les grands modèles multimodaux (tels que MiniGPT-4) se concentrent principalement sur la compréhension multimodale, étant capable de gérer les images comme des entrées continues. Pour étendre ses fonctionnalités à la génération multimodale, les chercheurs ont introduit des Vokens génératifs spécialement conçus pour produire des fonctionnalités visuelles. En outre, ils ont également adopté une technologie de réglage fin efficace des paramètres dans le cadre du Large Language Model (LLM) pour l'apprentissage de la sortie multimodale
Génération de sortie multimodale
Afin de garantir que le système génératif token est Pour générer un alignement précis des modèles, les chercheurs ont développé un module de cartographie compact pour la correspondance dimensionnelle et ont introduit plusieurs pertes supervisées, notamment la perte d'espace de texte et la perte de modèle de diffusion latente. La perte d'espace de texte aide le modèle à connaître avec précision l'emplacement des jetons, tandis que la perte de diffusion latente aligne directement les jetons avec les caractéristiques visuelles appropriées. Puisque les caractéristiques des symboles génératifs sont directement guidées par les images, cette méthode ne nécessite pas de descriptions complètes des images et permet un apprentissage sans description
stratégie d'entraînement
Étant donné qu'il existe une existence non négligeable entre le domaine du texte et le domaine de l'image Changement de domaine, les chercheurs ont découvert que l'entraînement directement sur un ensemble limité de données de texte et d'image entrelacées peut entraîner un désalignement et une dégradation de la qualité de l'image.
Ils ont donc utilisé deux stratégies d'entraînement différentes pour atténuer ce problème. La première stratégie consiste à utiliser des techniques d'amorçage sans classificateur pour améliorer l'efficacité des jetons générés tout au long du processus de diffusion ; la deuxième stratégie se déroule en deux phases : une phase initiale de pré-formation axée sur l'alignement approximatif des fonctionnalités, suivie d'une phase de réglage fin. sur l'apprentissage de fonctionnalités complexes.
Expériences et résultats
Afin d'évaluer l'efficacité du modèle, les chercheurs ont sélectionné plusieurs critères et mené une série d'évaluations. Le but de l'expérience est de répondre à plusieurs questions clés :
- MiniGPT-5 peut-il générer des images crédibles et un texte raisonnable ?
- Comment MiniGPT-5 se comporte-t-il par rapport aux autres modèles SOTA dans les tâches de génération de langage visuel entrelacé à un seul tour et à plusieurs tours ?
- Quel impact la conception de chaque module a-t-elle sur les performances globales ?
Afin d'évaluer les performances du modèle MiniGPT-5 à différentes étapes de formation, nous avons effectué une analyse quantitative, et les résultats sont présentés dans la figure 3 :
Pour démontrer la polyvalence et la robustesse du modèle proposé, nous l'avons évalué, couvrant à la fois les domaines visuels (métriques liées à l'image) et linguistiques (métriques textuelles). évaluation de l'étape , c'est-à-dire que l'image correspondante est générée selon le modèle d'invite de la dernière étape et les résultats sont présentés dans le tableau 1.
Le MiniGPT-5 surpasse le SD 2 affiné dans les trois paramètres. Notamment, le score CLIP du modèle MiniGPT-5 (LoRA) surpasse systématiquement les autres variantes sur plusieurs types d'invites, en particulier lors de la combinaison d'invites d'image et de texte. D'autre part, le score FID met en évidence la compétitivité du modèle MiniGPT-5 (Prefix), indiquant qu'il peut y avoir un compromis entre la qualité d'intégration de l'image (reflétée par le score CLIP) et la diversité et l'authenticité de l'image (reflétée par le score CLIP). score FID). Par rapport à un modèle formé directement sur VIST sans inclure d'étape d'enregistrement à modalité unique (MiniGPT-5 sans UAS), bien que le modèle conserve la capacité de générer des images significatives, la qualité et la cohérence des images sont considérablement réduites. Cette observation met en évidence l'importance de la stratégie de formation en deux étapes
Évaluation en plusieurs étapes VIST
Dans une évaluation plus détaillée et plus complète, les chercheurs ont systématiquement alimenté le modèle avant l'historique. contexte, et les images et récits qui en résultent sont ensuite évalués à chaque étape.
Le Tableau 2 et le Tableau 3 résument les résultats de ces expériences, fournissant un aperçu des performances respectivement sur les métriques d'image et de langage. Les résultats expérimentaux montrent que MiniGPT-5 est capable d'exploiter des signaux d'entrée multimodaux de long niveau pour générer des images cohérentes et de haute qualité sur toutes les données sans compromettre les capacités de compréhension multimodale du modèle original. Cela met en évidence l'efficacité du MiniGPT-5 dans différents environnements 8 % générés plus pertinents les récits textuels dans 52,06 % des cas, ont fourni une meilleure qualité d'image dans 52,06 % des cas et ont généré une sortie multimodale plus cohérente dans 57,62 % des scènes. Comparées à une base de référence en deux étapes qui adopte une narration invite texte-image sans mode subjonctif, ces données démontrent clairement ses plus fortes capacités de génération multimodale.
MMDialog Plusieurs cycles d'évaluation
Selon les résultats du tableau 5, MiniGPT-5 est plus précis que le modèle de base Divter pour générer des réponses textuelles. Bien que les images générées soient de qualité similaire, MiniGPT-5 surpasse le modèle de base en termes de corrélations MM, ce qui suggère qu'il est mieux à même d'apprendre à positionner la génération d'images de manière appropriée et de générer des réponses multimodales hautement cohérentes
Jetons un coup d'œil aux résultats de MiniGPT-5 et voyons à quel point il est efficace. La figure 7 ci-dessous montre la comparaison entre MiniGPT-5 et le modèle de base sur l'ensemble de vérification CC3M
La figure 8 ci-dessous montre la comparaison entre MiniGPT-5 et le modèle de base sur l'ensemble de vérification VIST
La figure 9 ci-dessous montre la comparaison entre MiniGPT-5 et le modèle de base sur l'ensemble de test MMDialog.
Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Exploiter la puissance de l'IA sur disvise: construire une CLI de chatbot personnelle Dans un passé récent, le concept d'un assistant d'IA personnel semblait être une science-fiction. Imaginez Alex, un passionné de technologie, rêvant d'un compagnon d'IA intelligent et local - celui qui ne dépend pas

Leur lancement inaugural de l'AI4MH a eu lieu le 15 avril 2025, et le Dr Tom Insel, M.D., célèbre psychiatre et neuroscientifique, a été le conférencier de lancement. Le Dr Insel est réputé pour son travail exceptionnel dans la recherche en santé mentale et la techno

"Nous voulons nous assurer que la WNBA reste un espace où tout le monde, les joueurs, les fans et les partenaires d'entreprise, se sentent en sécurité, appréciés et autonomes", a déclaré Engelbert, abordé ce qui est devenu l'un des défis les plus dommageables des sports féminins. L'anno

Introduction Python excelle comme un langage de programmation, en particulier dans la science des données et l'IA générative. La manipulation efficace des données (stockage, gestion et accès) est cruciale lorsqu'il s'agit de grands ensembles de données. Nous avons déjà couvert les nombres et ST

Avant de plonger, une mise en garde importante: les performances de l'IA sont non déterministes et très usagées. En termes plus simples, votre kilométrage peut varier. Ne prenez pas cet article (ou aucun autre) article comme le dernier mot - au lieu, testez ces modèles sur votre propre scénario

Construire un portefeuille AI / ML hors concours: un guide pour les débutants et les professionnels La création d'un portefeuille convaincant est cruciale pour sécuriser les rôles dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Ce guide fournit des conseils pour construire un portefeuille

Le résultat? L'épuisement professionnel, l'inefficacité et un écart d'élargissement entre la détection et l'action. Rien de tout cela ne devrait être un choc pour quiconque travaille en cybersécurité. La promesse d'une IA agentique est devenue un tournant potentiel, cependant. Cette nouvelle classe

Impact immédiat contre partenariat à long terme? Il y a deux semaines, Openai s'est avancé avec une puissante offre à court terme, accordant aux étudiants des États-Unis et canadiens d'accès gratuit à Chatgpt Plus jusqu'à la fin mai 2025. Cet outil comprend GPT - 4O, un A


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP