Maison >Périphériques technologiques >IA >Différents styles de conseils VCT, le tout avec une seule image, vous permettant de le mettre facilement en œuvre

Différents styles de conseils VCT, le tout avec une seule image, vous permettant de le mettre facilement en œuvre

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-08-22 13:49:041415parcourir

Ces dernières années, la technologie de génération d’images a réalisé de nombreuses avancées clés. Surtout depuis la sortie de grands modèles tels que DALLE2 et Stable Diffusion, la technologie d'image de génération de texte a progressivement mûri et la génération d'images de haute qualité offre de larges scénarios pratiques. Cependant, l'édition détaillée des images existantes reste un problème difficile

D'une part, en raison des limitations de la description textuelle, le modèle d'image textuelle de haute qualité existant ne peut utiliser le texte que pour éditer les images de manière descriptive, et pour certaines effets, le texte est difficile à décrire ; d'autre part, dans les scénarios d'application réels, les tâches d'édition de raffinement d'image n'ont souvent qu'un petit nombre d'images de référence, Cela crée de nombreuses solutions qui nécessitent une grande quantité de données pour la formation, en Small des quantités de données, en particulier lorsqu’il n’existe qu’une seule image de référence, sont difficiles à gérer.

Récemment, des chercheurs de NetEase Interactive Entertainment AI Lab ont proposé une solution d'édition d'image à image basée sur le guidage d'une seule image, étant donné une seule image de référence, les objets ou les styles de l'image de référence peuvent être migrés vers l'image source sans modification. la structure globale de l’image source.

Le document de recherche a été accepté par l'ICCV 2023 et le code correspondant est open source.

Différents styles de conseils VCT, le tout avec une seule image, vous permettant de le mettre facilement en œuvre Rendu de thèse : le coin supérieur gauche de chaque ensemble d'images est l'image source, le coin inférieur gauche est l'image de référence et le côté droit est l'image de résultat générée

Cadre principal

L'auteur de l'article a proposé un cadre d'édition d'images basé sur

Inversion-Fusion - VCT (traducteur de concept visuel, convertisseur de concept visuel).

Comme le montre la figure ci-dessous, le cadre global de VCT comprend deux processus : le processus d'inversion contenu-concept (Content-concept Inversion) et le processus de fusion contenu-concept (Content-concept Fusion). Le processus d'inversion de contenu-concept utilise deux algorithmes d'inversion différents pour apprendre et représenter respectivement les vecteurs latents des informations structurelles de l'image d'origine et les informations sémantiques de l'image de référence ; le processus de fusion contenu-concept utilise les vecteurs latents des informations structurelles ; et des informations sémantiques pour générer le résultat final.

Différents styles de conseils VCT, le tout avec une seule image, vous permettant de le mettre facilement en œuvre Le contenu qui doit être réécrit est : le cadre principal de l'article

Il convient de mentionner que dans le domaine des réseaux contradictoires génératifs (GAN) ces dernières années, la méthode d'inversion a été largement utilisé et utilisé dans de nombreux résultats remarquables ont été obtenus sur les tâches de génération d'images [1]. Lorsque GAN réécrit le contenu, le texte original doit être réécrit en chinois. La phrase originale n'a pas besoin d'apparaître. Une image peut être mappée sur l'espace caché du générateur GAN formé, et l'objectif de l'édition peut être atteint en contrôlant le. espace caché. Ce schéma d'inversion peut exploiter pleinement la puissance générative des modèles génératifs pré-entraînés. Cette étude réécrit en fait le contenu avec GAN. Le texte original doit être réécrit en chinois, et la phrase originale n'a pas besoin d'être appliquée aux tâches d'édition d'images basées sur le guidage d'image avec le modèle de diffusion comme a priori.

Différents styles de conseils VCT, le tout avec une seule image, vous permettant de le mettre facilement en œuvre Lors de la réécriture du contenu, le texte original doit être réécrit en chinois, et la phrase originale n'a pas besoin d'apparaître

Introduction à la méthode

Basé sur l'idée d'inversion, VCT a conçu un processus de diffusion à deux branches, qui comprend une branche B* de reconstruction de contenu et une branche principale B pour l'édition. Ils partent du même bruit xT obtenu à partir de DDIM Inversion

【2】^{, un algorithme qui utilise des modèles de diffusion pour calculer le bruit des images, respectivement pour la reconstruction et l'édition de contenu. Le modèle de pré-formation utilisé dans cet article est le modèle de diffusion latente (LDM en abrégé). Le processus de diffusion se produit dans l'espace vectoriel latent z. Le processus à double branche peut être exprimé comme suit :}