Maison  >  Article  >  Périphériques technologiques  >  "Censuré" lors de la génération d'images : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

"Censuré" lors de la génération d'images : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

WBOY
WBOYavant
2023-06-13 14:26:39988parcourir

Les modèles de génération de diffusion de texte à image, tels que Stable Diffusion, DALL-E 2 et Mid-Journey, sont dans un état de développement vigoureux et disposent de capacités de génération de texte à image extrêmement puissantes. , mais des cas de « renversement » surviennent occasionnellement.

Comme le montre la figure ci-dessous, lorsqu'on lui donne une invite de texte : "Une photo d'un phacochère", le modèle de diffusion stable peut générer un phacochère correspondant, clair et réaliste photo. Cependant, lorsque nous modifions légèrement cette invite de texte et la remplaçons par : « Une photo d'un phacochère et d'un traître », qu'en est-il du phacochère ? Comment est-elle devenue une voiture ?

Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

Jetons un coup d'œil aux prochains exemples. Ce sont des nouveautés. c'est une espèce ? Quelle est la cause de ces phénomènes étranges ? Ces cas d'échec de génération proviennent tous d'un article récemment publié "Stable Diffusion is Unstable":

Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

Adresse papier : https://arxiv.org/abs/2306.02583

# 🎜🎜#

Dans cet article, un algorithme contradictoire basé sur un gradient pour les modèles texte-image est proposé pour la première fois. Cet algorithme peut générer de manière efficace et efficiente un grand nombre d'invites de texte offensantes et peut explorer efficacement l'instabilité du modèle de diffusion stable. Cet algorithme a atteint un taux de réussite d'attaque de 91,1 % sur les invites de texte courtes et de 81,2 % sur les invites de texte longues. De plus, cet algorithme fournit des cas riches pour étudier les modes de défaillance des modèles de génération texte-image, jetant ainsi les bases de la recherche sur la contrôlabilité de la génération d'images.

Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

Sur la base du grand nombre de cas d'échec de génération générés par cet algorithme, le chercheur a résumé quatre raisons d'échec de génération, qui sont :

# 🎜🎜#

Différence de vitesse de génération
  • Similarité des caractéristiques à gros grain
  • # 🎜🎜#Ambiguïté des mots

La position du mot dans l'invite

La différence de génération speed

  • Lorsqu'une invite contient plusieurs cibles de build, nous rencontrons souvent le problème de la disparition d'une cible pendant le processus de build. Théoriquement, toutes les cibles d’un même signal devraient partager le même bruit initial. Comme le montre la figure 4, les chercheurs ont généré mille cibles de catégorie sur ImageNet dans des conditions de bruit initial fixe. Ils ont utilisé la dernière image générée par chaque cible comme image de référence et ont calculé le score de l'indice de similarité structurelle (SSIM) entre l'image générée à chaque pas de temps et l'image générée à la dernière étape pour démontrer les différentes cibles.
  • Similarité des caractéristiques à gros grains
  • Pendant Lors du processus de génération de diffusion, les chercheurs ont découvert que lorsqu'il existe une similarité de caractéristiques globales ou locales entre deux types de cibles, des problèmes surgissent lors du calcul des poids d'attention croisée. En effet, les deux noms cibles peuvent se concentrer sur le même bloc de la même image en même temps, ce qui entraîne un enchevêtrement de fonctionnalités. Par exemple, sur la figure 6, les saumons à plumes et argentés présentent certaines similitudes en termes de caractéristiques à gros grains, ce qui permet aux plumes de continuer à accomplir leur tâche de génération au cours de la huitième étape du processus de génération basé sur le saumon argenté. Pour deux types de cibles sans enchevêtrement, comme le saumon argenté et le magicien, le magicien ne peut pas terminer sa tâche de génération sur l'image de l'étape intermédiaire basée sur le saumon argenté.
  • Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

    Polysémie

    Dans ce chapitre, les chercheurs explorent en profondeur la situation de génération lorsqu'un mot a plusieurs sens. Ce qu’ils ont découvert, c’est que, sans aucune perturbation extérieure, l’image résultante représentait souvent une signification spécifique du mot. Prenons « phacochère » comme exemple. La première ligne de la figure A4 est générée en fonction de la signification du mot « phacochère ».

    Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

    Cependant, les chercheurs ont également découvert que lorsque d'autres mots sont injectés dans l'invite d'origine, cela peut provoquer des changements sémantiques. Par exemple, lorsque le mot « traître » est introduit dans une invite décrivant « phacochère », le contenu de l'image généré peut s'écarter de la signification originale de « phacochère » et générer un contenu entièrement nouveau.

    La position du mot dans l'invite

    Dans la figure 10, le chercheur a observé un phénomène intéressant. Bien que d’un point de vue humain, les invites disposées dans des ordres différents ont généralement la même signification et décrivent toutes l’image d’un chat, de sabots et d’un pistolet. Cependant, pour le modèle de langage, c'est-à-dire l'encodeur de texte CLIP, l'ordre des mots affecte dans une certaine mesure la compréhension du texte, ce qui à son tour modifie le contenu des images générées. Ce phénomène montre que même si nos descriptions sont sémantiquement cohérentes, le modèle peut produire des résultats de compréhension et de génération différents en raison de l'ordre différent des mots. Cela révèle non seulement que la manière dont les modèles traitent le langage et comprend la sémantique est différente de celle des humains, mais nous rappelle également que nous devons accorder plus d'attention à l'impact de l'ordre des mots lors de la conception et de l'utilisation de tels modèles.

    Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

    La structure du modèle

    est illustrée dans la figure 1 ci-dessous, sans changer le nom cible d'origine dans l'invite, le chercheur a ainsi poursuivi le processus discret de remplacement ou d'expansion de mots en apprenant la distribution Gumbel Softmax. assurer la différentiabilité de la génération de perturbations, après avoir généré l'image, utiliser le classificateur CLIP et la perte de marge pour optimiser ω, dans le but de générer des images que CLIP ne peut pas classer correctement Afin de garantir que les invites offensives et les invites propres ont une certaine similitude, recherche. Dans une étape ultérieure, des contraintes de similarité sémantique et des contraintes de fluidité du texte sont utilisées.

    Une fois cette distribution apprise, l'algorithme est capable d'échantillonner plusieurs astuces de texte avec des effets d'attaque pour la même astuce de texte propre.

    Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

    Censuré lors de la génération dimages : les cas de défaillance de diffusion stable sont affectés par quatre facteurs majeurs

    Veuillez consulter l'article original pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer