


Introduction
La synthèse du texte à l'image et l'apprentissage contrasté de texte d'image sont deux des applications d'apprentissage multimodales les plus innovantes récemment gagnant en popularité. Avec leurs applications innovantes pour la création et la manipulation créatives d'images, ces modèles ont révolutionné la communauté de la recherche et suscité un intérêt public important.
Afin de faire des recherches supplémentaires, DeepMind a introduit Imagen. Ce modèle de diffusion de texte à l'image offre un photoréalisme sans précédent et une compréhension profonde du langage dans la synthèse du texte à l'image en fusionnant la force des modèles de langage transformateur (LMS) avec des modèles de diffusion haute fidélité.
Cet article décrit la formation et l'évaluation du nouveau modèle Imagen de Google, Imagen 3. Imagen 3 peut être configuré pour produire des images à une résolution 1024 × 1024 par défaut, avec la possibilité d'appliquer 2 ×, 4 × ou 8 × augmentation par la suite. Nous décrivons nos analyses et évaluations par rapport à d'autres modèles T2I de pointe.
Nous avons découvert que Imagen 3 est le meilleur modèle. Il excelle sur le photoréalisme et suivant des instructions utilisateur complexes et longues.
Aperçu
- Modèle révolutionnaire de texte à image : Imagen 3 de Google, un modèle de diffusion de texte à l'image, fournit un photoréalisme et une précision inégalés dans l'interprétation des invites utilisateur détaillées.
- Évaluation et comparaison : Imagen 3 excelle dans l'alignement d'image rapide et l'attrait visuel, le dépassement des modèles comme Dall · E 3 et la diffusion stable dans les évaluations automatisées et humaines.
- Ensemble de données et mesures de sécurité : l'ensemble de données de formation subit un filtrage strict pour supprimer le contenu de faible qualité ou nocif, garantissant des sorties plus sûres et plus précises.
- Brillance architecturale : en utilisant un encodeur T5-XXL congelé et un lancement en plusieurs étapes, Imagen 3 génère des images très détaillées jusqu'à 1024 × 1024.
- Intégration du monde réel : Imagen 3 est accessible via le sommet de Google Cloud, ce qui facilite l'intégration dans les environnements de production pour la génération créative d'images.
- Caractéristiques avancées et vitesse : Avec l'introduction de l'imagen 3 rapidement, les utilisateurs peuvent bénéficier d'une réduction de 40% de latence sans compromettre la qualité d'image.
Table des matières
- Ensemble de données: assurer la qualité et la sécurité dans la formation
- Architecture d'imagen
- Évaluation des modèles d'imagen
- Évaluation humaine: comment les évaluateurs ont jugé la qualité de sortie de l'imagen 3?
- Préférence globale de l'utilisateur: Imagen 3 prend les devants dans la génération d'images créatives
- Alignement d'image rapide: capturer l'intention des utilisateurs avec précision
- Appel visuel: excellence esthétique sur toutes les plateformes
- Alignement détaillé d'image rapide
- Raisonnement numérique: surperformant la concurrence dans la précision du nombre d'objets
- Évaluation automatisée: Comparaison des modèles avec Clip, Gecko et Vqascore
- Alignement d'image rapide
- Qualité d'image
- Résultats qualitatifs: mettre en évidence l'attention d'imagen 3 aux détails
- Inférence sur l'évaluation
- Accès à Imagen 3 via Vertex Ai: un guide de l'intégration transparente
- Utilisation du sommet AI
- Utilisation des Gémeaux
- Questions fréquemment posées
Ensemble de données: assurer la qualité et la sécurité dans la formation
Le modèle Imagen est formé à l'aide d'un grand ensemble de données qui comprend du texte, des images et des annotations connexes. DeepMind a utilisé plusieurs étapes de filtration pour garantir les exigences de qualité et de sécurité. Premièrement, toutes les images jugées dangereuses, violentes ou de mauvaise qualité sont supprimées. Ensuite, DeepMind a supprimé les images créées par l'IA pour empêcher le modèle de ramasser des biais ou des artefacts fréquemment présents dans ce type d'images. DeepMind a également utilisé des images et des procédures de déduplication similaires pour réduire la possibilité que les sorties sur-ajustent certains points de données de formation.
Chaque image de l'ensemble de données a une légende synthétique et une légende originale dérivée du texte ALT, des descriptions humaines, etc. Les modèles de gemini produisent des légendes synthétiques avec différents indices. Pour maximiser la diversité et la qualité du langage de ces légendes synthétiques, DeepMind a utilisé plusieurs modèles et instructions Gemini. DeepMind a utilisé divers filtres pour éliminer les légendes potentiellement nocives et des informations personnellement identifiables.
Architecture d'imagen
Imagen utilise un grand codeur T5-XXL congelé pour coder le texte d'entrée dans les intégres. Un modèle de diffusion conditionnel mappe le texte incorporé dans une image 64 × 64. Imagen utilise en outre des modèles de diffusion de super-résolution conditionnelle texte pour augmenter l'image 64 × 64 → 256 × 256 et 256 × 256 → 1024 × 1024.
Évaluation des modèles d'imagen
DeepMind évalue le modèle Imagen 3, qui est la meilleure configuration de qualité, contre l'imagen 2 et les modèles externes de Dall · e 3, MidJourney V6, stable diffusion 3 grande et stable Diffusion xl 1.0. DeepMind a constaté qu'Imagen 3 établit une nouvelle état de l'art dans la génération de texte à l'image grâce à des évaluations rigoureuses par les humains et les machines. Les résultats qualitatifs et l'inférence sur l'évaluation contiennent des résultats qualitatifs et une discussion sur les résultats et limitations globaux. Les intégrations de produits avec Imagen 3 peuvent entraîner des performances différentes de la configuration qui a été testée.
Lisez également: comment utiliser l'API DALL-E 3 pour la génération d'images?
Évaluation humaine: comment les évaluateurs ont jugé la qualité de sortie de l'imagen 3?
Le modèle de génération de texte à l'image est évalué sur cinq aspects de qualité: préférence globale, alignement d'image rapide, attrait visuel, alignement d'image rapide détaillé et raisonnement numérique. Ces aspects sont évalués indépendamment pour éviter la confusion dans les jugements des évaluateurs. Des comparaisons côte à côte sont utilisées pour le jugement quantitatif, tandis que le raisonnement numérique peut être évalué directement en comptant le nombre d'objets d'un type donné représentés dans une image.
Le tableau de bord ELO complet est généré par une comparaison exhaustive de chaque paire de modèles. Chaque étude se compose de 2500 notes uniformément réparties entre les invites de l'invite. Les modèles sont anonymisés dans l'interface des évaluateurs, et les côtés sont mélangés au hasard pour chaque note. La collecte de données est menée à l'aide des meilleures pratiques de Google Deepmind sur l'enrichissement des données, garantissant que tous les travailleurs d'enrichissement des données sont payés au moins un salaire décent local. L'étude a collecté 366 569 notes dans 5943 soumissions de 3225 évaluateurs différents. Chaque évaluateur a participé au plus de 10% des études et a fourni environ 2% des notes pour éviter les résultats biaisés à un ensemble particulier de jugements des évaluateurs. Les évaluateurs de 71 nationalités différentes ont participé aux études.
Préférence globale de l'utilisateur: Imagen 3 prend les devants dans la génération d'images créatives
La préférence globale des utilisateurs concernant l'image générée étant donné une invite est une question ouverte, les évaluateurs décidant quels aspects de qualité sont les plus importants. Deux images ont été présentées aux évaluateurs, et si les deux étaient également attrayantes, «je suis indifférent».
Les résultats ont montré que l'imagen 3 était significativement plus préféré sur Genai-Bench, DrawBench et Dall · e 3 Eval. Imagen 3 a mené avec une marge plus petite sur le tirage au sort que la diffusion stable 3, et il avait un léger bord sur Dall · e 3 Eval.
Alignement d'image rapide: capturer l'intention des utilisateurs avec précision
L'étude évalue la représentation d'une invite d'entrée dans un contenu d'image de sortie, ignorant les défauts potentiels ou l'attrait esthétique. Les évaluateurs ont été invités à choisir une image qui capture mieux l'intention de l'invite, sans tenir compte des différents styles. Les résultats ont montré que l'imagen 3 surpasse Genai-Bench, DrawBench et Dall · E 3 EVAL, avec des intervalles de confiance qui se chevauchent. L'étude suggère que l'ignorance des défauts potentiels ou une mauvaise qualité dans les images peut améliorer la précision de l'alignement d'image rapide.
Appel visuel: excellence esthétique sur toutes les plateformes
L'appel visuel mesure l'attrait des images générées, quel que soit le contenu. Les évaluateurs évaluent deux images côte à côte sans invites. MidJourney V6 mène, avec Imagen 3 presque sur le PAR sur Genai-Bench, légèrement plus grand sur le tirage au sort, et un avantage significatif sur Dall · e 3 Eval.
Alignement détaillé d'image rapide
L'étude évalue les capacités d'alignement de l'image rapide en générant des images à partir d'invites détaillées de DOCCI, qui sont nettement plus longues que les ensembles d'invites précédents. Les chercheurs ont trouvé la lecture de 100 invites de mots trop difficiles pour les évaluateurs humains. Au lieu de cela, ils ont utilisé des légendes de haute qualité de photographies de référence réelles pour comparer les images générées avec des images de référence de référence. Les évaluateurs se sont concentrés sur la sémantique des images, ignorant les styles, capturant la technique et la qualité. Les résultats ont montré que Imagen 3 avait un écart significatif de 114 points ELO et un taux de victoire de 63% contre le deuxième meilleur modèle, mettant en évidence ses capacités exceptionnelles en suivant le contenu détaillé des invites d'entrée.
Raisonnement numérique: surperformant la concurrence dans la précision du nombre d'objets
L'étude évalue la capacité des modèles à générer un nombre exact d'objets en utilisant la tâche de référence Geckonum. La tâche consiste à comparer le nombre d'objets dans une image à la quantité attendue demandée dans l'invite. Les modèles considèrent les attributs comme la couleur et les relations spatiales. Les résultats montrent que l'imagen 3 est le modèle le plus fort, surpassant Dall · E 3 par 12 points de pourcentage. Il a également une précision plus élevée lors de la génération d'images contenant 2 à 5 objets et de meilleures performances sur des structures de phrases plus complexes.
Évaluation automatisée: Comparaison des modèles avec Clip, Gecko et Vqascore
Ces dernières années, les mesures d'évaluation automatique (Auto-Eval) comme Clip et Vqascore sont devenues plus largement utilisées pour mesurer la qualité des modèles de texte à l'image. Cette étude se concentre sur les mesures auto-ovales pour l'alignement de l'image rapide et la qualité d'image pour compléter les évaluations humaines.
Alignement d'image rapide
Les chercheurs choisissent trois puissantes métriques d'alignement d'image invite auto-EVAL: les encodeurs doubles contrastifs (CLIP), basés sur VQA (GECKO) et une invite LVLM (une implémentation de VQASCORE2). Les résultats montrent que Clip ne prédit souvent pas la bonne commande de modèle, tandis que Gecko et Vqascore fonctionnent bien et acceptent environ 72% du temps. Vqascore a l'avantage car il correspond aux notes humaines 80% du temps, par rapport aux 73,3% de Gecko. Gecko utilise une épine dorsale plus faible, Pali, qui peut expliquer la différence de performance.
L'étude évalue quatre ensembles de données pour étudier les différences de modèle dans diverses conditions: Gecko-Rel, DOCCI-Test-Pivots, Dall · E 3 Eval et Genai-Bench. Les résultats montrent qu'Imagen 3 a systématiquement les performances d'alignement les plus élevées. SDXL 1 et Imagen 2 sont toujours moins performants que les autres modèles.
Qualité d'image
En ce qui concerne la qualité de l'image, les chercheurs comparent la distribution des images générées par Imagen 3, Sdxl 1 et Dall · E 3 sur 30 000 échantillons de l'ensemble de validation de caption MSCOCO en utilisant différents espaces de fonctionnalités et mesures de distance. Ils observent que la minimisation de ces trois mesures est un compromis, favorisant la génération de couleurs et de textures naturelles, mais qui ne détecte pas les distorsions sur les formes et les parties des objets. Imagen 3 présente la valeur CMMD inférieure des trois modèles, mettant en évidence ses performances solides sur les mesures d'espace de fonction de pointe.
Résultats qualitatifs: mettre en évidence l'attention d'imagen 3 aux détails
L'image ci-dessous montre 2 images échantillonnées à 12 mégapixels, avec des cultures montrant le niveau de détail.
Inférence sur l'évaluation
Imagen 3 est le modèle top dans l'alignement de l'image rapide, en particulier dans les invites détaillées et les capacités de comptage. En termes d'attrait visuel, MidJourney V6 prend les devants, avec Imagen 3 en deuxième position. Cependant, il a toujours des lacunes dans certaines capacités, telles que le raisonnement numérique, le raisonnement à l'échelle, les phrases de composition, les actions, le raisonnement spatial et le langage complexe. Ces modèles luttent avec des tâches qui nécessitent un raisonnement numérique, un raisonnement à l'échelle, des phrases de composition et des actions. Dans l'ensemble, Imagen 3 est le meilleur choix pour les sorties de haute qualité qui respectent l'intention des utilisateurs.
Accès à Imagen 3 via Vertex Ai: un guide de l'intégration transparente
Utilisation du sommet AI
Pour commencer à utiliser Vertex AI, vous devez avoir un projet Google Cloud existant et activer l'API Vertex AI. En savoir plus sur la mise en place d'un projet et d'un environnement de développement.
En outre, voici le lien github - se référer
Importer Vertexai à partir de vertexai.preview.vision_models importe ImageGenerationModel # TODO (développeur): Mettez à jour votre ID de projet à partir de la console Vertex AI project_id = "project_id" vertexai.init (project = project_id, location = "US-Central1") génération_model = imagegenerationmodel.from_pretraind ("Imagen-3.0-Generate-001") prompt = "" " Une image photoréaliste d'un livre de cuisine allongé sur une table de cuisine en bois, la couverture face à l'avant avec une famille souriante assise à une table similaire, un éclairage aérien doux illuminant la scène, le livre de cuisine est le principal objectif de l'image. "" " image = génération_model.generate_images ( invite = invite, numéro_of_images = 1, aspect_ratio = "1: 1", Safety_Filter_Level = "Block_Some", person_generation = "allow_all", )
Rendu texte
Imagen 3 ouvre également de nouvelles possibilités concernant le rendu de texte à l'intérieur des images. La création d'images d'affiches, de cartes et de publications sur les réseaux sociaux avec des légendes dans différentes polices et couleurs est un excellent moyen d'expérimenter cet outil. Pour utiliser cette fonction, écrivez simplement une brève description de ce que vous aimeriez voir dans l'invite. Imaginons que vous souhaitez modifier la couverture d'un livre de cuisine et ajouter un titre.
prompt = "" " Une image photoréaliste d'un livre de cuisine allongé sur une table de cuisine en bois, la couverture face à l'avant avec une famille souriante assise à une table similaire, un éclairage aérien doux illuminant la scène, le livre de cuisine est le principal objectif de l'image. Ajoutez un titre au centre de la couverture du livre de cuisine qui se lit comme suit «Recettes de tous les jours» en lettres de bloc orange. "" " image = génération_model.generate_images ( invite = invite, numéro_of_images = 1, aspect_ratio = "1: 1", Safety_Filter_Level = "Block_Some", person_generation = "allow_all", )
Latence réduite
DeepMind propose Imagen 3 Fast, un modèle optimisé pour la vitesse de génération, en plus d'Imagen 3, son modèle de plus haute qualité à ce jour. Imagen 3 Fast convient à produire des images avec un contraste et une luminosité plus importants. Vous pouvez observer une réduction de 40% de latence par rapport à Imagen 2. Vous pouvez utiliser la même invite pour créer deux images qui illustrent ces deux modèles. Créons deux alternatives pour la photo de salade que nous pouvons inclure dans le livre de cuisine mentionné précédemment.
génération_model_fast = imageGenerationModel.from_pretraind ( "Imagen-3.0-fast-géner-001" ) prompt = "" " Une image photoréaliste d'une salade de jardin débordant de légumes colorés comme des poivrons, des concombres, des tomates et des légumes verts à feuilles, assis dans un bol en bois au centre de l'image sur une table en marbre blanc. La lumière naturelle illumine la scène, jetant des ombres douces et mettant en évidence la fraîcheur des ingrédients. "" " # Imagen 3 Génération d'images rapides fast_image = génération_model_fast.generate_images ( invite = invite, numéro_of_images = 1, aspect_ratio = "1: 1", Safety_Filter_Level = "Block_Some", person_generation = "allow_all", )
prompt = "" " Une image photoréaliste d'une salade de jardin débordant de légumes colorés comme des poivrons, des concombres, des tomates et des légumes verts à feuilles, assis dans un bol en bois au centre de l'image sur une table en marbre blanc. La lumière naturelle illumine la scène, jetant des ombres douces et mettant en évidence la fraîcheur des ingrédients. "" " # Génération d'images Imagen 3 image = génération_model.generate_images ( invite = invite, numéro_of_images = 1, aspect_ratio = "1: 1", Safety_Filter_Level = "Block_Some", person_generation = "allow_all", )
Utilisation des Gémeaux
Les Gémeaux prennent en charge l'utilisation du nouvel Imagen 3, nous utilisons donc des Gémeaux pour accéder à Imagen 3. Dans l'image ci-dessous, nous pouvons voir que Gemini génère des images à l'aide d'imagen 3.
Invite - «Générez une image d'un lion marchant sur les routes de la ville. Les routes ont des voitures, des vélos et un bus. Assurez-vous de le rendre réaliste»
Conclusion
Imagen 3 de Google établit une nouvelle référence pour la synthèse du texte à l'image, excellant dans le photoréalisme et manipulant des invites complexes avec une précision exceptionnelle. Ses fortes performances à travers plusieurs repères d'évaluation met en évidence ses capacités dans l'alignement détaillé de l'image rapide et l'attrait visuel, le dépassement des modèles comme Dall · E 3 et la diffusion stable. Cependant, il fait toujours face à des défis dans les tâches impliquant un raisonnement numérique et spatial. Avec l'ajout d'imagen 3 rapidement pour une latence et une intégration réduites avec des outils comme Vertex AI, Imagen 3 ouvre des possibilités passionnantes pour les applications créatives, repoussant les limites de l'IA multimodale.
Si vous recherchez un cours d'IA génératif en ligne, explorez - Genai Pinnacle Program dès aujourd'hui!
Questions fréquemment posées
Q1. Qu'est-ce qui fait que l'imagen 3 de Google se démarque dans la synthèse du texte à l'image?ANS Imagen 3 excelle dans le photoréalisme et la manipulation rapide complexe, offrant une qualité d'image supérieure et un alignement avec la saisie de l'utilisateur par rapport à d'autres modèles comme Dall · E 3 et la diffusion stable.
Q2. Comment Imagen 3 gère-t-il les invites complexes?Ans. Imagen 3 est conçu pour gérer efficacement les invites détaillées et longues, démontrant des performances solides dans l'alignement de l'image rapide et la représentation détaillée du contenu.
Q3. Quels ensembles de données sont utilisés pour former Imagen 3?Ans. Le modèle est formé sur un grand ensemble de données diversifié avec du texte, des images et des annotations, filtré pour exclure le contenu généré par l'AI, des images nocives et des données de mauvaise qualité.
Q4. En quoi Imagen 3 Fast diffère-t-il de la version standard?Ans. Imagen 3 Fast est optimisé pour la vitesse, offrant une réduction de 40% de latence par rapport à la version standard tout en maintenant une génération d'images de haute qualité.
Q5. Imagen 3 peut-il être intégré dans les environnements de production?Ans. Oui, Imagen 3 peut être utilisé avec le sommet de Google Cloud, permettant une intégration transparente dans les applications pour la génération d'images et les tâches créatives.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Introduction Supposons qu'il y ait un fermier qui observe quotidiennement les progrès des cultures dans plusieurs semaines. Il regarde les taux de croissance et commence à réfléchir à la hauteur de ses plantes de plus en plus dans quelques semaines. De th

L'IA souple - définie comme des systèmes d'IA conçus pour effectuer des tâches spécifiques et étroites en utilisant un raisonnement approximatif, une reconnaissance de motifs et une prise de décision flexible - cherche à imiter la pensée humaine en adoptant l'ambiguïté. Mais qu'est-ce que cela signifie pour les activités

La réponse est claire - tout comme le cloud computing nécessitait un changement vers des outils de sécurité natifs du cloud, l'IA exige une nouvelle race de solutions de sécurité conçues spécifiquement pour les besoins uniques de l'IA. La montée des leçons de cloud computing et de sécurité apprises Dans

Entrepreneurs et utilisant l'IA et l'IA génératrice pour améliorer leurs entreprises. Dans le même temps, il est important de se souvenir de l'IA génératrice, comme toutes les technologies, est un amplificateur - ce qui rend le grand grand et le médiocre, pire. Une étude rigoureuse en 2024 o

Déverrouiller la puissance des modèles d'intégration: une plongée profonde dans le nouveau cours d'Andrew Ng Imaginez un avenir où les machines comprennent et répondent à vos questions avec une précision parfaite. Ce n'est pas de la science-fiction; Grâce aux progrès de l'IA, cela devient un R

Modèles de grande langue (LLM) et le problème inévitable des hallucinations Vous avez probablement utilisé des modèles d'IA comme Chatgpt, Claude et Gemini. Ce sont tous des exemples de modèles de grande langue (LLMS), de puissants systèmes d'IA formés sur des ensembles de données de texte massifs pour

Des recherches récentes ont montré que les aperçus de l'IA peuvent entraîner une baisse énorme de 15 à 64% du trafic organique, basé sur l'industrie et le type de recherche. Ce changement radical fait que les spécialistes du marketing reconsidèrent toute leur stratégie concernant la visibilité numérique. Le nouveau

Un récent rapport de l'imagination du Future Center de l'Université d'Elon a interrogé près de 300 experts en technologie mondiale. Le rapport qui en résulte, «Être humain en 2035», a conclu que la plupart concernaient l'adoption d'approfondissement des systèmes d'IA sur T


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Version Mac de WebStorm
Outils de développement JavaScript utiles

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

Dreamweaver Mac
Outils de développement Web visuel