Maison >Périphériques technologiques >IA >Bataille offensive et défensive rapide ! L'Université de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Bataille offensive et défensive rapide ! L'Université de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

王林
王林avant
2023-04-12 10:31:02952parcourir

​Quelle est la chose la plus précieuse en 2022 ? rapide!

Le modèle de génération d'images guidées par texte (génération d'images guidées par texte), tel que DALL-E 2, est devenu un succès et les internautes génèrent sans cesse toutes sortes d'images amusantes.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Mais si vous souhaitez que le modèle génère des images cibles claires et utilisables, vous devez maîtriser le bon "sort", c'est-à-dire que l'invite doit être soigneusement conçue avant de pouvoir être utilisée. Certaines personnes créent même des sites Web pour. vendre des invites

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Si l'invite est un mauvais sort, l'image générée peut être "soupçonnée de violer la réglementation".

Bien que DALL-E 2 ait mis en place divers mécanismes pour éviter que le modèle ne soit abusé lors de sa sortie, comme la suppression des images violentes, haineuses ou inappropriées des données d'entraînement en utilisant des moyens techniques pour empêcher la génération de photos hyper réalistes ; de visages humains, en particulier certaines personnalités publiques.

Pendant la phase de génération, DALL-E 2 définit également un filtre d'invite qui ne permet pas aux mots d'invite saisis par l'utilisateur de contenir du contenu violent, adulte ou politique.

Mais récemment, des chercheurs de l'Université de Columbia ont découvert que certains mots apparemment absurdes pouvaient être ajoutés à l'invite, rendant le filtre incapable de reconnaître la signification du mot, mais le système d'IA peut finalement renvoyer des images générées significatives.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Lien papier : https://arxiv.org/pdf/2208.04135.pdf

L'auteur propose deux méthodes de construction d'invites. La première est appelée invite macaronique, où le sens original du mot macaronique fait référence. une variété de mots de langues sont mélangés pour créer de nouveaux mots. Au Pakistan, par exemple, les mélanges d'ourdou et d'anglais sont courants.

Le corpus de formation du DALL-E 2 est généralement constitué de données collectées sur Internet. Le processus d'établissement de connexions conceptuelles entre le texte et les images impliquera plus ou moins l'apprentissage multilingue, afin que le modèle formé puisse reconnaître plusieurs langues à la fois. en même temps des capacités conceptuelles.

Vous pouvez ainsi utiliser des combinaisons multilingues pour former de nouveaux mots, contourner le filtre d'invite conçu par les humains et atteindre l'objectif de résister aux attaques.

Par exemple, le mot « oiseaux » est Vögel en allemand, uccelli en italien, oiseaux en français et pájaros en espagnol. Après que le modèle CLIP utilise l'algorithme de codage par paire d'octets (BPE) pour segmenter la phrase d'invite de saisie, Can be. divisé en plusieurs sous-mots.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Après avoir réorganisé les sous-mots en nouveaux mots, comme saisir uccoisegeljaros, DALL-E 2 peut toujours générer des images d'oiseaux, mais les humains sont complètement incapables de comprendre le sens du mot.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Même si les limites du sous-mot ne sont pas strictement respectées, par exemple, s'il est remplacé par voiscellpajaraux et oisvogajaro, le modèle peut toujours générer des images d'oiseaux.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

En plus des oiseaux, les chercheurs ont découvert que la méthode de combinaison de plusieurs langues peut obtenir de bons résultats dans différents domaines d'images, et les résultats de génération d'images montrent une très grande cohérence.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

La génération d'images pertinentes du règne animal aux paysages, véhicules, scènes et émotions est un jeu d'enfant.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Bien que différents modèles de génération d'images guidées par texte aient des architectures, des données d'entraînement et des méthodes de segmentation de mots différentes, en principe, les astuces macaroniques peuvent être appliquées à n'importe quel modèle formé sur des données multilingues, comme dans DALL-E mini. L’effet se retrouve dans le modèle.

Il convient de noter que malgré des noms similaires, DALL-E 2 et DALL-E mini sont assez différents. Ils ont des architectures différentes (DALL-E mini n'utilise pas de modèle de diffusion), sont formés sur différents ensembles de données et utilisent différents tokenizers (DALL-E mini utilise le tokenizer BART, qui peut se comporter différemment des mots divisés du tokenizer CLIP).

Malgré ces différences, les embouts macaroniques fonctionnent toujours sur les deux modèles, et les principes qui les sous-tendent doivent être étudiés plus en détail.

Mais tous les signaux macaroniques ne sont pas transférés de manière appropriée entre les différents modèles, par exemple, alors que farpapmaripterling a produit une image de papillon dans DALL-E 2 comme prévu, il a produit une image de champignon dans DALL-E mini.

Bataille offensive et défensive rapide ! L'Université de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Les chercheurs supposent que les modèles peut-être plus grands formés sur des ensembles de données plus grands sont plus sensibles aux signaux macaroniques, car ils apprennent entre les unités de sous-mots et les concepts visuels dans différentes langues. Des relations plus fortes.

Cela pourrait expliquer pourquoi certaines astuces macaroniques qui produisent les résultats attendus dans DALL-E 2 ne fonctionnent pas dans DALL-E mini, mais il existe peu d'exemples du contraire.

Cette tendance n'est peut-être pas une bonne nouvelle, car les modèles à grande échelle peuvent être plus vulnérables aux attaques adverses utilisant des indices macaroniques.

En plus d'utiliser des mots composés simples comme invites, les mots composés peuvent également être intégrés dans la syntaxe anglaise pour former des phrases, et l'effet de la génération d'images est similaire à celui des mots originaux.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Et un autre avantage des mots composés est qu'ils peuvent être combinés pour produire des scènes plus spécifiques et complexes. Même si les indices macaroniques complexes doivent se conformer à la structure syntaxique de l'anglais, ce qui rend les résultats générés plus faciles à interpréter que les indices utilisant des chaînes synthétiques, les informations transmises au modèle restent relativement vagues.

Pour la plupart des gens, sans exposition préalable aux signaux macaroniques et sans connaissance du langage utilisé pour l'hybridation, il peut être difficile de deviner quel genre de scénario se produirait avec l'invite Un eidelucertlagarzard mangeant un maripofarterling.

De plus, ces invites sophistiquées ne déclencheront pas de filtres de contenu basés sur des listes noires, malgré le fait qu'ils utilisent des mots anglais ordinaires, tant que les concepts censurés sont suffisamment « cryptés » à l'aide de méthodes macaroniques.

La pointe macaronique ne nécessite pas nécessairement de combiner des sous-mots dans plusieurs langues. Les combiner dans une seule langue peut également produire des concepts visuels efficaces. Cependant, les personnes familiarisées avec l'anglais peuvent deviner l'effet recherché de la chaîne. Par exemple, le mot happy est. très Il est facile de deviner que c'est un mot composé de joyeux et joyeux.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

La deuxième méthode est appelée Evocative Prompting. Contrairement au macaronique, l'évocation n'a pas besoin de déclencher une association visuelle à partir de combinaisons de mots existantes, mais est basée sur la signification statistique de certaines combinaisons de lettres dans un champ spécifique", a déclaré Arouse. nouveau mot.

En vous référant à la nomenclature binomiale dans la classification biologique, vous pouvez créer un nouveau « mot pseudo-latin » basé sur le « nom du genre » et « l'épithète de l'espèce », et DALL-E peut générer le mot correspondant en fonction du thème correspondant. espèces.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

De nouvelles images de médicaments peuvent également être générées selon les règles de dénomination des médicaments.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Les indices évocateurs peuvent également être appliqués à des associations entre des caractéristiques spécifiques d'une langue et des caractéristiques visuelles liées au lieu et à la culture de la langue correspondante. Par exemple, en fonction du nom du bâtiment, le modèle peut déduire le style du pays. Par exemple, la scène générée par Woldenbüchel ressemble à un village allemand ou autrichien ; Valtorigiano ressemble à une ancienne ville italienne ; Beaussoncour ressemble à un village historique ; ville en France.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

Cependant, ce ne sont pas nécessairement tous des bâtiments. Par exemple, la dernière image générée avec DALL-E mini est un portrait français du XVIIe siècle, pas un lieu français, mais le lien avec la culture française est toujours conservé.

Des indices évocateurs peuvent également être combinés avec une hybridation lexicale pour mieux contrôler les caractéristiques spécifiques de la sortie.

L'introduction de morceaux de mots anglais dans la nomenclature pseudo-latine amènera DALL-E 2 à générer des images d'animaux avec des attributs spécifiques. Par exemple, le mot d'invite scariosus ferocianensis combine effrayant (effrayant) et féroce (féroce) avec des termes pseudo-latins, qui. peut générer des images de « reptiles » traditionnellement effrayants tels que les scorpions.

Bataille offensive et défensive rapide ! LUniversité de Columbia a proposé la méthode de création de mots BPE, qui peut contourner le mécanisme de révision DALL-E 2, qui a été trompée.

cutiosus adorablensis combine mignon et adorable avec des termes pseudo-latins pour générer des images de mammifères mignons au sens traditionnel ; watosus swimensis combine l'eau et la natation avec des affixes pseudo-latins Ensemble, il peut générer des images d'animaux aquatiques flyosus wingensis combine ; voler et ailé avec des affixes pseudo-latins pour générer des images d'insectes volants.

En principe, le vocabulaire généré par la méthode macaronique peut fournir un moyen simple et apparemment fiable de contourner le filtre d'invite. Les personnes ayant des arrière-pensées peuvent l'utiliser pour générer des mots nuisibles, offensants, illégaux ou autres contenus sensibles, y compris violents. les images haineuses, racistes, sexistes ou pornographiques, ainsi que les images susceptibles de porter atteinte aux droits de propriété intellectuelle ou de représenter des personnes réelles.

Bien que les entreprises qui fournissent des services de génération d'images aient déployé des efforts considérables pour empêcher la génération de telles sorties conformément à leurs politiques de contenu, les astuces macaroniques peuvent toujours constituer une menace énorme pour les protocoles de sécurité des systèmes commerciaux de génération d'images.

La menace posée par les signaux évocateurs est moins évidente, car ils ne constituent pas un moyen très efficace et fiable de déclencher des chaînes d'associations visuelles spécifiques, et ils se limitent principalement à des concepts liés à de larges caractéristiques morphologiques des mots ou à une association vague. .

En général, les astuces macaroniques sont plus exploitables que les astuces évocatrices, et le filtrage du contenu par liste noire par mots clés dans ce type de modèle n'est pas suffisant pour résister aux attaques.

Est-ce que DALL-E 2 va s'éteindre ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer