Maison > Article > Périphériques technologiques > Génération d'images basée sur le modèle de diffusion
Partie 01 Cet article proposait que les modèles génératifs de l'époque tels que VAE présentaient une grande difficulté, c'est-à-dire que ce type de modèle définit d'abord la distribution conditionnelle, puis définit le postérieur variationnel à adapter. conduisent à la nécessité d'optimiser à la fois la distribution conditionnelle et la distribution variationnelle a posteriori. Cependant, cela est très difficile. Si nous pouvons définir un processus simple qui mappe la distribution des données à une gaussienne standard, la tâche du « générateur » devient simplement d'adapter chaque petite étape du processus inverse de ce processus. C'est l'idée centrale du modèle de diffusion. . Cependant, cet article n’a pas fait de vagues à l’époque.
Figure 2-Résultats de génération de DDPM
Ainsi, après le DDPM, en 2021, Song et al. ont proposé le DDIM (Denoising Diffusioin Implicit Model), qui a transformé la méthode d'échantillonnage du processus de diffusion du DDPM et a promu le processus de diffusion markovien traditionnel pour les processus non markoviens. , des étapes d'échantillonnage plus petites peuvent être utilisées pour accélérer la génération d'échantillons, améliorant ainsi considérablement l'efficacité.
Il y a également quelques améliorations dans les travaux de suivi pour intégrer le modèle de diffusion au réseau de génération traditionnel, comme la combinaison des modèles VAE et DM, la combinaison GAN+DM, etc. n'entre pas dans les détails ici.1.3 Outbreak
En 2022, Google a lancé un nouveau système d'IA basé sur le modèle de diffusion, qui peut convertir des descriptions textuelles en images réalistes.
Photo 3
Photo 4
Comme le montre le schéma schématique fourni par Google, le champ saisi texte Tout d'abord, il est codé, puis converti en une petite image 64*64 par un modèle de diffusion texte-image. De plus, un modèle de diffusion super-résolution est utilisé pour traiter la petite image, et la résolution de l'image est. amélioré dans un processus itératif supplémentaire, résultant en Le résultat final généré est une image finale de 1024*1024. Ce processus magique est exactement comme ce que tout le monde ressent lorsqu'il l'utilise. Vous entrez un morceau de texte - un chien golden retriever portant un col roulé à pois rouges et un chapeau à carreaux bleus, puis le programme génère automatiquement le texte ci-dessus pour vous. vu. Une autre application populaire au niveau des phénomènes - novalAI, il s'agissait à l'origine d'un site Web dédié à l'écriture d'IA. Basé sur la génération d'images à chaud actuelle, il s'est combiné avec des ressources d'images sur Internet pour former un site Web axé sur la génération d'images bidimensionnelles. Le modèle a commencé à atteindre le niveau des peintres humains en termes d'effet. En plus de la saisie traditionnelle de texte pour produire des images, il prend également en charge la saisie d'images comme référence, ce qui permet à l'IA être basé sur des images connues La génération de nouvelles images basées sur des images existantes résout dans une certaine mesure le problème des résultats incontrôlables générés par l'IA. Partie 02gird Explication du principe gi 2.1 Processus Forward , alors le processus d'ajout de bruit peut être exprimé par : Comme mentionné ci-dessus, il s'agit d'un Markov processus en chaîne. Finalement, les données auront tendance à être une distribution gaussienne isotrope. 2.2 Processus de diffusion inverse Le processus inverse est un processus de débruitage Si est connu, x0 peut être restauré à partir de la distribution gaussienne standard complète. satisfait la distribution gaussienne et est suffisamment petit, alors est toujours une distribution gaussienne, et alors Prévoyez-le, nous avons donc :
Si x0 est connu, alors par la formule bayésienne :
Si pour l'apprentissage automatique Les lecteurs qui savent il faut savoir que toute formation de modèle consiste à optimiser les paramètres du modèle pour obtenir une moyenne et une variance fiables. Nous maximisons le log de vraisemblance de la distribution de prédiction du modèle, c'est-à-dire : Après. une série de dérivation, le modèle DDPM a obtenu l'expression finale de la fonction de perte :
Pour résumer le processus de formation :
Figure 6 Cependant, avec le développement de la technologie de l'IA, il y aura toujours des différends, et le domaine de la génération d'images ne fait pas exception. En plus des problèmes de la technologie de l'IA elle-même, tels que la structure de l'image générée est erronée et déraisonnable, il existe également certains aspects juridiques, tels que les questions de droits d'auteur sur les œuvres d'IA elles-mêmes. Les problèmes techniques peuvent être résolus grâce au développement de la technologie elle-même. Nous avons des raisons de croire qu’avec le développement de la technologie de l’IA, la génération d’images atteindra à terme un niveau très élevé, ce qui éliminera la plupart des tâches bas de gamme liées à la peinture, ce qui éliminera la plupart des tâches liées à la peinture. Libère grandement la productivité humaine. Les problèmes de droit d'auteur peuvent encore obliger les ministères à accorder suffisamment d'attention au développement des industries connexes et à améliorer les politiques et les systèmes concernés. Cela nous oblige à réfléchir davantage aux domaines émergents afin que la technologie de l'IA puisse mieux nous servir. https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2 https://www.php.cn/ lien /6872937617af85db5a39a5243e858d1f https://www.php.cn/link/831da40e5907987235ebe5616446e083
Alors, quel est le processus de fonctionnement d'une technologie d'IA aussi puissante ? Ici, nous prenons comme exemple le modèle DDPM plus classique pour donner un bref processus :
Le processus forward est un processus d'ajout de bruit à l'image, dans le but de construire un échantillon d'entraînement GT.
Pour une distribution de données initiale donnée x0~q(x), nous ajoutons progressivement du bruit gaussien à la distribution de données. Ce processus a T fois, et le résultat de chaque étape est x1, x2,..., xt , l'écart type du bruit est exprimé par
ne peut pas être simplement déduit, nous utilisons donc un modèle d'apprentissage profond avec des paramètres
2.3 Processus de formation
Partie 03
Résumé ● Les modèles de diffusion ont montré grand potentiel. Par rapport aux modèles VAE, ils n'ont pas besoin d'aligner la distribution postérieure, ni de former des discriminateurs supplémentaires comme le GAN, y compris la vision par ordinateur, la bioinformatique, il a des applications dans le traitement de la voix et d'autres aspects. Cela contribuera à améliorer l'efficacité de la création d'images. Cela pourrait permettre à l'IA de générer plusieurs images en fonction des conditions, et les humains pourraient filtrer et modifier les résultats. Ce sera l'avenir de la peinture 2D, ce qui pourrait grandement améliorer l'efficacité de la production. d’actifs numériques 2D.
Références
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!