Maison >Périphériques technologiques >IA >Une seule carte peut exécuter des modèles de peinture IA. Des didacticiels que même les novices peuvent comprendre sont disponibles ici. La puissance de calcul NPU gratuite est disponible avec 1 million de cartes.

Une seule carte peut exécuter des modèles de peinture IA. Des didacticiels que même les novices peuvent comprendre sont disponibles ici. La puissance de calcul NPU gratuite est disponible avec 1 million de cartes.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-04-12 18:16:081533parcourir

Je pense que tout le monde connaît la récente popularité du dessin IA.

Des œuvres générées par les logiciels de dessin d'IA à la défaite de nombreux artistes humains et à la victoire du championnat de l'art numérique, jusqu'à aujourd'hui, des plateformes nationales et étrangères telles que DALL.E, Imagen et Novelai ont prospéré.

Peut-être avez-vous également cliqué sur des sites Web connexes et essayé de laisser l'IA décrire le paysage dans votre esprit, ou téléchargé une belle/belle photo de vous-même, puis ri et ri du type brutal finalement généré.

Alors, pendant que vous ressentez le charme du dessin IA, y avez-vous déjà pensé (non, vous devez y avoir pensé), quel est le mystère qui se cache derrière cela ?

Une seule carte peut exécuter des modèles de peinture IA. Des didacticiels que même les novices peuvent comprendre sont disponibles ici. La puissance de calcul NPU gratuite est disponible avec 1 million de cartes.

△L'œuvre qui a remporté la catégorie art numérique à la Colorado Technology Expo - "Space Opera"

Tout commence par un modèle appelé DDPM...

Qu'est-ce que DDPM ?

Le modèle DDPM, dont le nom complet est Denoising Diffusion Probabilistic Model, peut être considéré comme l'initiateur du modèle de diffusion actuel.

Différent des prédécesseurs tels que les modèles GAN, VAE et de flux, l'idée générale du modèle de diffusion est de générer progressivement des images à partir d'une image de bruit pur grâce à une approche orientée optimisation.

△Il existe maintenant une comparaison des modèles d'images générés

Certains amis peuvent se demander : qu'est-ce qu'une image de bruit pur ?

C'est très simple. Lorsque l'ancien téléviseur n'a pas de signal, les images de flocons de neige qui apparaissent accompagnées du bruit « piquant » sont de purs images de bruit.

Ce que fait DDPM dans la phase de génération, c'est supprimer ces "flocons de neige" petit à petit jusqu'à ce que l'image claire révèle sa véritable apparence. Nous appelons cette étape "débruitage".

△Image à bruit pur : écran en forme de flocon de neige d'un vieux téléviseur

À travers la description, vous pouvez sentir que le débruitage est en fait un processus assez compliqué.

Il n'y a pas de règle précise pour débruiter. Peut-être que vous êtes occupé depuis longtemps, mais au final vous avez toujours envie de pleurer devant les images bizarres.

Bien sûr, différents types d'images auront également des règles de débruitage différentes. Quant à savoir comment laisser la machine apprendre cette règle, quelqu'un a eu une idée et a pensé à une méthode merveilleuse :

Étant donné que les règles de débruitage sont difficiles à apprendre, alors pourquoi ne pas d'abord transformer une image en une image de bruit pur en ajoutant du bruit, puis faire tout le processus à l'envers ?

Cela établit l'ensemble du processus d'entraînement-inférence du modèle de diffusion : tout d'abord, l'image est convertie en une image de bruit pur qui se rapproche d'une distribution gaussienne en ajoutant progressivement du bruit dans le processus direct

Ensuite, dans l'étape du processus inverse ; par débruitage étape par étape et génération d'images dans le processus inverse

Enfin, dans le but d'augmenter la similarité entre l'image originale et l'image générée, le modèle est optimisé jusqu'à ce que l'effet souhaité soit obtenu.

△Processus de formation-inférence DDPM

À ce stade, je me demande comment tout le monde l'accepte ? Si vous sentez qu'il n'y a pas de problème et que c'est facile, préparez-vous, je vais commencer à utiliser le coup ultime (théorie approfondie).

1.1.1 Processus direct

Le processus direct est également appelé processus de diffusion, et l'ensemble est une chaîne de Markov paramétrée. À partir de la distribution initiale des données x0~q(x), du bruit gaussien est ajouté à la distribution des données à chaque étape pendant T fois. Le processus allant de l'étape t-1 xt-1 à l'étape t xt peut être exprimé par la distribution gaussienne comme suit :

Avec les paramètres appropriés, à mesure que t continue d'augmenter, les données d'origine x0 perdront progressivement leurs caractéristiques. Nous pouvons comprendre qu'après un nombre infini d'étapes d'ajout de bruit, les données finales xT deviendront une image sans aucune caractéristique et sans bruit complètement aléatoire, ce que nous avons d'abord appelé « l'écran de flocon de neige ».

Dans ce processus, les changements à chaque étape peuvent être contrôlés en définissant l'hyperparamètre βt. En partant du principe que nous savons quelle est l'image initiale, l'ensemble du processus d'ajout de bruit direct peut être considéré comme connu et contrôlable. peut complètement savoir à quoi ressemblent les données générées à chaque étape.

Mais le problème est que chaque calcul doit partir du point de départ, combiner le processus de chaque étape et le dériver lentement vers certaines données d'étape xt que vous souhaitez, ce qui est trop gênant. Heureusement, en raison de certaines caractéristiques de la distribution gaussienne, nous pouvons obtenir xt directement à partir de x0 en une seule étape.

Attention, le

ici

et Une seule carte peut exécuter des modèles de peinture IA. Des didacticiels que même les novices peuvent comprendre sont disponibles ici. La puissance de calcul NPU gratuite est disponible avec 1 million de cartes. sont des coefficients de combinaison, qui sont essentiellement des expressions βt d'hyperparamètres.

1.1.2 Processus inverse (processus inverse)

est le même que le processus direct Le processus inverse est également une chaîne de Markov, mais les paramètres utilisés ici sont différents. ? C'est ce que nous avons besoin que la machine apprenne.

Avant de comprendre comment la machine apprend, réfléchissons d'abord, sur la base de certaines données originales x0, à partir de l'étape t xt, quel devrait être le processus de déduction précise jusqu'à l'étape t-1 xt-1 ?

La réponse est que cela peut toujours être représenté par la distribution gaussienne :

Notez que x0 doit être pris en compte ici, ce qui signifie que l'image finale générée par le processus inverse doit toujours être liée aux données d'origine. Si vous saisissez une photo d'un chat, l'image générée par le modèle doit être celle d'un chat. Si vous saisissez une photo d'un chien, l'image générée par le modèle doit également être liée à un chien. Si x0 est supprimé, quel que soit le type de formation d'image entré, les images finales générées par diffusion seront les mêmes, "les chats et les chiens ne sont pas distingués".

Après une série de dérivation, nous avons constaté que les paramètres

dans le processus inverse peuvent toujours être exprimés par x0, xt et les paramètres βt, Une seule carte peut exécuter des modèles de peinture IA. Des didacticiels que même les novices peuvent comprendre sont disponibles ici. La puissance de calcul NPU gratuite est disponible avec 1 million de cartes. ?

Bien sûr, la machine ne connaît pas à l'avance le véritable processus d'inversion. Tout ce qu'elle peut faire, c'est le simuler avec une distribution estimée à peu près approximative, exprimée sous la forme p0(xt-1|xt).

1.1.3 Objectif d'optimisation

Au début, nous avons mentionné que le modèle doit être optimisé en augmentant la similarité entre les données d'origine et les données finalement générées par le processus inverse. En apprentissage automatique, nous calculons cette similarité sur la base de l'entropie croisée.

Concernant l'entropie croisée, la définition académique est "utilisée pour mesurer la différence d'information entre deux distributions de probabilité". En d’autres termes, plus l’entropie croisée est petite, plus l’image générée par le modèle est proche de l’image originale. Cependant, dans la plupart des cas, l’entropie croisée est difficile, voire impossible à calculer, c’est pourquoi nous obtenons généralement le même effet en optimisant une expression plus simple.

Le modèle de diffusion s'appuie sur les idées d'optimisation du modèle VAE et remplace l'entropie croisée par la limite inférieure variationnelle (VLB, également connue sous le nom d'ELBO) comme cible d'optimisation maximale. Après d'innombrables étapes de décomposition, nous avons finalement obtenu :

En voyant une formule aussi compliquée, beaucoup d'amis doivent avoir la grosse tête. Mais pas de panique, ce à quoi vous devez faire attention ici est juste Lt-1 au milieu. Il représente la distribution estimée p0(xt-1|xt) et la distribution réelle q(xt-1|xt,x0 entre. xt et xt-1 ) écart. Plus l'écart est petit, meilleure est l'image finale générée par le modèle.

1.1.4 Télécharger le code

Après avoir compris les principes derrière DDPM, voyons comment le modèle DDPM est implémenté...

C'est bizarre. Je crois que lorsque vous lisez ceci, vous ne voulez certainement pas vous laisser baptiser par des centaines ou des milliers de lignes de code.

Heureusement, MindSpore vous a fourni un modèle DDPM entièrement développé. La formation et l'inférence peuvent être effectuées à deux mains. L'opération est simple et peut être exécutée sur une seule carte. Les amis qui souhaitent expérimenter l'effet n'ont qu'à d'abord

pip install denoising-diffusion-mindspore

puis référez-vous aux paramètres de configuration du Code suivants :

Quelques analyses de paramètres importants :

GaussianDiffusion

image_size : taille de l'image
timesteps : nombre d'étapes de bruit
sampling_timesteps : nombre d'étapes d'échantillonnage Afin d'améliorer les performances d'inférence, il doit être inférieur au nombre d'étapes d'échantillonnage. étapes de bruit

Trainer

folder_or_dataset : correspondant au chemin dans l'image, il peut s'agir du chemin de l'ensemble de données téléchargé (str), ou il peut s'agir de VisionBaseDataset, GeneratorDataset ou MindDataset qui a effectué le traitement des données
train_batch_size : taille du lot
train_lr : taux d'apprentissage
train_num_steps : nombre d'étapes de formation

Modèle DDPM "Version avancée" MindDiffusion

DDPM n'est que le début de l'histoire de Diffusion. À l’heure actuelle, d’innombrables chercheurs ont été attirés par le monde magnifique qui se cache derrière et s’y sont consacrés.

Tout en optimisant continuellement le modèle, ils ont également progressivement développé l'application de la Diffusion dans divers domaines.

Cela inclut l'optimisation d'image, l'inpainting, la vision 3D dans le domaine de la vision par ordinateur, la synthèse vocale dans le traitement du langage naturel, la génération de conformation moléculaire, la conception de matériaux dans le domaine de l'IA pour la science, etc.

Eric Zelikman, doctorant au Département d'informatique de l'Université de Stanford, a utilisé son imagination pour essayer de combiner DALLE-2 avec ChatGPT, un autre modèle de conversation récemment populaire, afin de créer une histoire de livre d'images réconfortante.

△DALLE-2 + ChatGPT, l'histoire d'un petit robot nommé "Robbie"

Mais la plus connue est probablement ses applications de synthèse texte-image. Entrez quelques mots-clés ou une brève description, et le modèle peut générer l'image correspondante pour vous.

Par exemple, entrez "City Night Scene Cyberpunk Greg Lutkowsky", et le résultat final sera une œuvre aux couleurs vives avec un style de science-fiction futuriste.

Pour un autre exemple, si vous saisissez "La Femme de Monet tenant un parasol dans Rêve de Lune", le résultat sera un portrait très flou d'une femme. Le style de correspondance des couleurs vous rappelle-t-il les "Nymphéas" de Monet ?

Vous voulez une photo de paysage réaliste comme économiseur d'écran ? aucun problème!

△Country Field Screensaver

Vous voulez quelque chose avec plus de concentration bidimensionnelle ? C'est ok aussi !

△Du style réaliste de la peinture de paysage abyssal

Les images ci-dessus sont toutes réalisées par Wukong Huahua sous la plateforme MindDiffusion. Wukong Huahua est un grand modèle de texte chinois basé sur le modèle de diffusion, créé par l'équipe Noah de Huawei. a travaillé en collaboration avec ChinaSoft Distributed Parallel Laboratory et Ascend Computing Product Department pour développer conjointement.

Le modèle est formé sur la base de l'ensemble de données Wukong et mis en œuvre à l'aide des solutions logicielles et matérielles MindSpore + Ascend.

Amis désireux d'essayer, ne vous inquiétez pas. Afin de donner à chacun une meilleure expérience et plus d'espace pour le développement personnel, nous prévoyons de faire en sorte que les modèles de MindDiffusion aient également les caractéristiques de capacité d'entraînement et d'inférence. Il devrait être disponible l’année prochaine. À tous, restez à l’écoute.

Nous invitons tout le monde à réfléchir et à générer divers styles d'œuvres uniques~

(Selon des collègues qui sont allés se renseigner sur des informations internes, certaines personnes ont déjà commencé à essayer "Zhang Fei Embroidery", "Liu Huaqiang Cutting Melons", " Dieux grecs anciens" "Godzilla contre Godzilla". Ummmm, que dois-je faire ? J'attends soudainement avec impatience le produit fini (ಡωಡ))

One More Thing

Enfin, avec la diffusion devenant si populaire, certaines personnes ont également demandé pourquoi il peut devenir si populaire qu'il commence même à devenir plus populaire que le réseau GAN ?

La diffusion présente des avantages exceptionnels et des inconvénients évidents ; bon nombre de ses domaines sont encore vides et son avenir est encore inconnu.

Pourquoi y a-t-il tant de personnes qui travaillent sans relâche dessus ?

Peut-être que les paroles du professeur Ma Yi peuvent nous apporter une réponse.

Mais l'efficacité du processus de diffusion et son remplacement rapide du GAN illustre également pleinement une vérité simple :

Quelques lignes de dérivation mathématique simples et correctes peuvent être bien plus efficaces que le débogage à grande échelle d'hyperparamètres et de structures de réseau au cours de la dernière décennie.

C'est peut-être là le charme du modèle Diffusion.

[2] Jonathan Ho, Ajay Jain et Pieter Abbeel. Modèles probabilistes de diffusion de débruitage. arXiv : 2006.11239, 2020.

[3]Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang et Bin Cui. Modèles de diffusion : une étude complète des méthodes et des applications. Préimpression arXiv arXiv:2209.00796, 2022.

[4]https://lilianweng.github.io/posts/2021-07-11-diffusion-models

[5]https://github.com/lvyufeng/denoising -diffusion-mindspore

[6]https://zhuanlan.zhihu.com/p/525106459

[7]https://zhuanlan.zhihu.com/p/500532271

[8]https://www .zhihu.com/question/536012286

[9]https://mp.weixin.qq.com/s/XTNk1saGcgPO-PxzkrBnIg

[10]https://m.weibo.cn/3235040884/4804448864177745

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Un ensemble complet de tutoriels pour adapter le framework Diffusers est ici ! De l'adaptateur T2I au populaire ControlNetArticle suivant：Un ensemble complet de tutoriels pour adapter le framework Diffusers est ici ! De l'adaptateur T2I au populaire ControlNet

Articles Liés

Voir plus