Maison > Article > Périphériques technologiques > Le premier modèle GAN à très grande échelle ! La vitesse de génération est 20 fois plus rapide que celle de la diffusion et l'image est produite en 0,13 seconde. Elle prend en charge jusqu'à 16 millions de pixels.
Avec la sortie de DALL-E 2 par OpenAI, les modèles autorégressifs et de diffusion sont devenus du jour au lendemain la nouvelle norme pour les modèles génératifs à grande échelle. Avant cela, les réseaux contradictoires génératifs (GAN) avaient toujours été le choix dominant et les technologies dérivées telles que StyleGAN. .
Derrière la popularité de l'AIGC, d'un point de vue technique, il y a eu un énorme changement dans l'architecture du modèle de génération d'images.
Avec la sortie de DALL-E 2 par OpenAI, les modèles autorégressifs et de diffusion sont devenus du jour au lendemain la nouvelle norme pour les modèles génératifs à grande échelle. Avant cela, les réseaux contradictoires génératifs (GAN) avaient toujours été le choix dominant et dérivé du StyleGAN. et d'autres technologies.
Le passage architectural du GAN au modèle de diffusion soulève également une question : les performances peuvent-elles être encore améliorées en augmentant la taille du modèle GAN, par exemple, dans un grand ensemble de données comme LAION ?
Récemment, en réponse au problème d'instabilité causé par l'augmentation de la capacité de l'architecture StyleGAN, des chercheurs de l'Université des sciences et technologies de Pohang (Corée du Sud), de l'Université Carnegie Mellon et de l'Adobe Research Institute ont proposé une nouvelle architecture de réseau antagoniste générative GigaGAN. dépasse la limite de taille du modèle et montre que le GAN peut toujours être compétent en tant que modèle de synthèse texte-image.
Lien papier : https://arxiv.org/abs/2303.05511
Lien du projet : https://mingukkang.github.io/GigaGAN/
GigaGAN présente trois avantages majeurs.
1. Elle est plus rapide lors de l'inférence. Par rapport à Stable Diffusion-v1.5 avec le même niveau de paramètres, la vitesse de génération à une résolution de 512 est raccourcie de 2,9 secondes à 0,13 seconde.
2. Peut synthétiser des images haute résolution, par exemple, synthétiser une image de 16 mégapixels en 3,66 secondes.
3. Prend en charge diverses applications d'édition d'espace latent, telles que l'interpolation latente, le mélange de styles et les opérations arithmétiques vectorielles, etc.
Une série de modèles récemment lancés, tels que DALL-E 2, Imagen, Parti et Stable Diffusion, inaugurent une nouvelle ère de génération d'images, atteignant des niveaux sans précédent de qualité d'image et de flexibilité des modèles.
Les paradigmes actuellement dominants du « modèle de diffusion » et du « modèle autorégressif » reposent tous deux sur l'épée à double tranchant du raisonnement itératif, car la méthode itérative peut effectuer un entraînement stable avec des objectifs simples, mais elle produira des erreurs lors du processus d'inférence supérieur. coûts de calcul.
En revanche, les réseaux contradictoires génératifs (GAN) ne nécessitent qu'un seul passage avant pour générer des images, ils sont donc intrinsèquement plus efficaces.
Bien que les modèles GAN aient dominé « l'ère précédente » de la modélisation générative, en raison de l'instabilité du processus de formation, l'extension du GAN nécessite un ajustement minutieux de la structure du réseau et des considérations de formation. Par conséquent, bien que les GAN soient utilisés pour un seul ou il excelle dans. modéliser plusieurs classes d'objets, mais la mise à l'échelle vers des ensembles de données complexes (sans parler de la génération d'objets en monde ouvert) reste un défi.
Donc actuellement les très grands modèles, les données et les ressources informatiques sont principalement axées sur les modèles de diffusion et autorégressifs.
Dans ce travail, les chercheurs abordent principalement les questions suivantes :
Le GAN peut-il continuer à évoluer et potentiellement bénéficier de ces ressources ? Ou le GAN atteint-il déjà sa limite ? Qu’est-ce qui entrave l’expansion des GAN ? Ces obstacles peuvent-ils être surmontés ?
Les chercheurs ont d'abord mené des expériences avec StyleGAN2 et ont observé que la simple expansion du réseau fédérateur conduirait à une formation instable, après avoir identifié plusieurs problèmes clés, ils ont proposé de stabiliser la formation tout en augmentant la capacité du modèle.
Tout d'abord, augmentez efficacement la capacité du générateur en conservant une banque de filtres et en prenant une combinaison linéaire d'échantillons spécifiques.
Adapté plusieurs techniques couramment utilisées dans le contexte des modèles de diffusion et confirmé qu'elles peuvent apporter des améliorations de performances similaires aux GAN, telles que la combinaison d'un mécanisme d'auto-attention (image uniquement) et d'attention croisée (image-texte). Entrelacé avec convolution les couches améliorent les performances.
De plus, les chercheurs ont réintroduit la formation à plusieurs échelles et ont trouvé un nouveau schéma capable d'améliorer l'alignement image-texte et de générer des détails basse fréquence dans la sortie.
La formation multi-échelle permet aux générateurs basés sur GAN d'utiliser plus efficacement les paramètres des blocs basse résolution, ce qui entraîne un meilleur alignement image-texte et une meilleure qualité d'image.
Générateur
Le générateur de GigaGAN se compose d'une branche d'encodage de texte, d'un réseau de mappage de style et d'un réseau de synthèse multi-échelle, complétés par une attention stable) et une sélection adaptative du noyau.
Dans la branche d'encodage de texte, un modèle CLIP pré-entraîné et une couche d'attention apprise T sont d'abord utilisés pour extraire les intégrations de texte, puis le processus d'intégration est transmis au réseau de mappage de style M pour générer un vecteur de style w similaire à StyleGAN
Le réseau de synthèse utilise le codage de style comme modulation et l'intégration de texte comme attention pour générer une pyramide d'images Sur cette base, un exemple d'algorithme de sélection de noyau adaptatif est introduit pour implémenter la convolution en fonction des conditions de texte d'entrée. Sélection adaptative du noyau.
Discriminateur
Semblable au générateur, le discriminateur de GigaGAN se compose de deux branches, qui sont utilisées respectivement pour traiter les conditions d'image et de texte.
La branche texte gère la branche texte similaire au générateur ; la branche image reçoit une pyramide d'images en entrée et fait des prédictions indépendantes pour chaque échelle d'image.
Plusieurs fonctions de perte supplémentaires sont introduites dans la formule pour favoriser une convergence rapide.
Réaliser une évaluation systématique et contrôlée sur des tâches de synthèse texte-image à grande échelle est difficile car la plupart des modèles existants ne sont pas accessibles au public, et même si le code de formation est disponible, en former un nouveau à partir de zéro. le coût du modèle serait également prohibitif.
Les chercheurs ont choisi de comparer leurs expériences avec Imagen, les modèles de diffusion latente (LDM), la diffusion stable et Parti, tout en reconnaissant qu'il existe des différences considérables dans les ensembles de données d'entraînement, le nombre d'itérations, la taille des lots et la taille des modèles.
Pour les indicateurs d'évaluation quantitative, la distance de démarrage de Frechet (FID) est principalement utilisée pour mesurer l'authenticité de la distribution de sortie, et le score CLIP est utilisé pour évaluer l'alignement image-texte.
Cinq expériences différentes ont été menées dans l'article :
1 Démontrer l'efficacité de la méthode proposée en intégrant progressivement chaque composant technique ;
2. Montrez que GigaGAN présente un FID comparable à la diffusion stable (SD-v1.5) tout en générant des résultats des centaines de fois plus rapides que les modèles de diffusion ou autorégressifs
3. Le modèle montre que GigaGAN peut synthétiser des images de meilleure qualité plus rapidement que le modèle de diffusion basé sur la distillation
4. Il est vérifié que le suréchantillonneur de GigaGAN fonctionne avec des super avantages conditionnels et inconditionnels par rapport aux autres suréchantillonneurs dans les tâches de résolution ;
5. Les résultats montrent que les GAN à grande échelle bénéficient toujours des opérations spatiales latentes continues et décomposées des GAN, permettant de nouveaux modes d'édition d'images.
Après avoir ajusté les paramètres, les chercheurs ont réalisé une formation stable et évolutive d'un GAN d'un milliard de paramètres (GigaGAN) sur des ensembles de données à grande échelle tels que LAION2B-en.
Et la méthode adopte une approche en plusieurs étapes, d'abord générant en 64×64, puis suréchantillonnant à 512×512. Ces deux réseaux sont suffisamment modulaires et puissants pour pouvoir être utilisés en mode Plug and Play. .
Les résultats montrent que le réseau de suréchantillonnage GAN conditionné par le texte peut servir de suréchantillonneur efficace et de haute qualité pour les modèles de diffusion de base (tels que DALL-E 2), même s'il n'a jamais vu d'images du modèle de diffusion pendant la formation.
Ensemble, ces résultats rendent GigaGAN bien supérieur aux modèles GAN précédents, 36 fois plus grand que StyleGAN2 et 6 fois plus grand que StyleGAN-XL et XMC-GAN.
Bien que le volume de 1 milliard de paramètres de GiGAN soit encore inférieur à celui des plus grands modèles synthétiques récemment publiés tels que Imagen (3B), DALL-E 2 (5,5B) et Parti (20B), ce n'est pas encore le cas. Une saturation de masse disponible par rapport à la taille du modèle a été observée.
GigaGAN a atteint un FID zéro tir de 9,09 sur l'ensemble de données COCO2014, ce qui est inférieur au FID de DALL-E 2, Parti-750M et Stable Diffusion
Interpolation rapide (interpolation rapide )
GigaGAN peut interpoler en douceur entre les indices. Les quatre coins de l'image ci-dessous sont générés par le même code latent, mais avec des indices de texte différents.
Mélange d'invites démêlées
GigaGAN préserve un espace latent séparé, permettant le couplage du style grossier d'un échantillon avec le style fin d'un autre échantillon, et GigaGAN peut contrôler directement les styles via des invites de texte .
Échange de style grossier à fin
L'architecture de modèle basée sur GAN conserve un espace latent séparé, permettant de comparer le style grossier d'un échantillon à un autre Un échantillon de styles fins mélangés ensemble.
Référence :
https://mingukkang.github.io/GigaGAN/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!