Maison > Article > Périphériques technologiques > Le médecin découvre accidentellement un secret : DALL-E 2 a créé son propre langage, incompréhensible pour les humains mais capable de générer des images spécifiques, qui peuvent être utilisées pour causer des ennuis !
DALL·E 2, cette IA a en fait développé son propre langage secret.
Par exemple, ces deux phrases très étranges :
(le logiciel de traduction va planter, vous pouvez l'essayer )
Mais nous voilà DALL·E 2 Ici, le style de peinture est complètement différent.
Selon son avis, A signifie « oiseaux » et C signifie « ravageur ».
Donc, si vous donnez à DALL·E 2 la phrase : A mange C, alors elle s'ouvrira comme ceci :
Toutes les images produites sont liées à des oiseaux mangeurs de parasites.
Et si vous demandez à DALL·E 2 de générer "Deux baleines discutant de nourriture, avec sous-titres", le résultat sera comme ceci :
"Wa ch zod rea" sur l'image, dans DALL·E 2 It s'avère que cela signifie « nourriture » dans le thésaurus !
Une fois cet incident révélé, il a immédiatement suscité des discussions animées parmi de nombreux internautes.
Certaines personnes ont même suggéré qu'avec ces langages secrets, le « filtre de mots interdits » de DALL·E 2 pourrait être contourné pour générer des images controversées.
(Créer des ennuis !)
Alors, quel est le sortilège secret de DALL·E 2 ?
La personne qui a découvert ce problème était un doctorant étranger spécialisé en informatique.
Il a remarqué que lorsque le modèle DALL-E 2 devait donner une image avec du texte, des mots étranges apparaissaient toujours.
Par exemple, saisissez cette phrase : "Deux agriculteurs parlant de légumes, avec sous-titres (Deux agriculteurs parlant de légumes, avec sous-titres)", et une image comme celle-ci sortira :
Cela semble être assez similaire , mais les sous-titres disent Qu'est-ce que c'est ? Ce n'est ni anglais ni français. C'est tellement étrange.
"Qu'est-ce que tu traduis pour moi ?"
Le petit frère a eu une idée et a lancé l'un des "mots" "Vicootes" comme description au modèle. De façon inattendue, un tas d'images comme celle-ci sont sorties :
.
Il existe des radis, des citrouilles et des kakis... Les "Vicootes" représentent-ils des légumes ?
Intéressant.
Puis il a lancé la chaîne de "Apoploe vesrreaitais" dans la bulle à DALL-E 2, et un tas de photos d'oiseaux sont apparues :
"Oh je vois, ce mot signifie 'oiseau', donc les agriculteurs semblent parler des oiseaux qui affectent leurs légumes ?"
Il semble que DALL-E 2 ne trompe pas les gens...
"J'ai découvert le langage secret de DALL-E 2 !" s'exclama le petit frère, puis prévu de le vérifier à nouveau. Ce n’est pas un accident.
Dans l'exemple de la baleine discutant de nourriture que nous venons de mentionner, le garçon a répondu "Wa ch zod rea".
Au final, beaucoup de nourriture est sortie, et c'était uniquement des fruits de mer, ce qui correspond aux « habitudes alimentaires » des baleines.
DALL-E 2, sincère et sincère.
Pour aller plus loin, il a utilisé ces « sorts » avec des mots décrivant le style de l'image pour voir si DALL-E 2 pouvait l'analyser normalement.
Le résultat ne pose aucun problème non plus. Jetez un oeil à ces "oiseaux dessinés à la main", "oiseaux de dessins animés", "oiseaux 3D" et "oiseaux dessinés au trait" :
emmmm, comment un moustique s'est-il mélangé dans le dernier ?
Ignorez-le pour l'instant (nous en reparlerons plus tard).
Alors pourquoi ce modèle s'exprime-t-il dans ce langage secret ?
Le sujet brûlant de "DALL-E 2 Secret Spell" a également attiré l'attention de nombreux "analystes".
Par exemple, un internaute nommé k1uge a suggéré que le problème réside dans le BPE (Byte Pair Encoding).
BPE est l'une des méthodes de codage les plus importantes dans le traitement du langage naturel. C'est également une méthode de compression de jetons courante et est impliquée dans de nombreux grands modèles de langage.
L'idée de base est la suivante :
Chaque étape remplace la paire d'unités de données adjacentes la plus courante par une nouvelle unité qui n'est pas apparue dans les données, et itère à plusieurs reprises jusqu'à ce que la condition d'arrêt soit remplie.
Donnez-moi un exemple.
Si vous souhaitez compresser le mot "aaabdaaabac", BPE trouvera d'abord la paire d'octets adjacents la plus courante, qui est "aa".
Après l'avoir trouvé, vous pouvez le remplacer par le nouvel octet Z, et le mot devient "ZabdZabac".
De même, la prochaine paire d'octets adjacents la plus courante est "ab". S'il est remplacé par Y, le mot sera ensuite compressé en "ZYdZYac".
La prochaine paire d'octets adjacents la plus courante est "ZY", remplacez-la par X et le dernier mot devient "XdXac".
...
Donc, sur la base de ce principe, cet internaute a vérifié le BPE utilisé par DALL-E 2 pour les "oiseaux".
Cela ressemble à ceci :
apo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> plo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> e<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span>ve<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> sr<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> re<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ait<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ais
En réalité, les noms littéraires latins de nombreux oiseaux ont les préfixes "apo" et "plo".
Par exemple, Apodidae (martinets) et Ploceidae (oiseaux tisserands), ces deux mots appartiennent à 2 familles d'oiseaux, chaque famille compte plus de 100 espèces.
Les Apodiformes (Swifts) constituent l'ordre le plus important parmi les oiseaux, avec plus de 400 espèces au total.
Cet internaute pensait donc que DALL-E 2 avait obtenu la plupart des informations sur les oiseaux à partir d'images étiquetées avec ces "termes académiques".
C'est peut-être la raison du sortilège secret de DALL-E 2.
Le médecin enthousiaste a écrit un petit article sur cette question et a publié ces découvertes sur Twitter, attirant des milliers d'internautes à regarder, et tout le monde a été stupéfait.
Mais bientôt quelqu'un l'a essayé par lui-même et a découvert que les choses n'étaient pas si simples.
Par exemple, la chaîne « Contarra ccetnxniams luryca tanniounons » représentant « bugs » générera également des images de grenouilles, de vaches ou de pigeons en plus des bugs.
Si vous ajoutez le mot « dessin animé » comme qualification à cette description, ce qui sera généré est une « grand-mère », qui n'a rien à voir avec les insectes ? ?
"Apoploe vesrreaitais" n'est pas un problème, il y a encore quelques oiseaux qui sortent.
Mais encore une fois, une fois que vous y ajoutez des mots comme « dessin animé » et « rendu 3D », quelque chose ne va pas encore et des bugs apparaîtront.
(Cela correspond également aux moustiques apparus dans mon dernier exemple.)
Il en va de même pour les "Vicootes" représentant les légumes Ce n'est pas un problème de perdre seul une fois que vous avez ajouté des restrictions de style, les espèces qui apparaissent. va changer. et on peut en gros dire qu'il est uniquement conforme aux paramètres de style de "peinture à l'huile" et "dessin animé" et n'a rien à voir avec les définitions de noms précédentes. Par exemple, "Vicootes" + "peinture" est un. un tas de peintures de paysages purs.
Puis il a également généré quelques images en utilisant le même "Deux baleines parlant de nourriture, avec sous-titres". De ce fait, la majeure partie du texte n'était pas claire et n'a pas pu être retranscrite.
J'en ai enfin trouvé un comme celui-ci :
Après sa nouvelle entrée en utilisant "Evve waeles" ci-dessus, bien qu'il ait obtenu une photo de dessert, de nombreuses photos d'athlètes, d'animaux et même de bouilloires sont apparues.
Je suis vraiment confus.
Alors l'expérimentateur a dit :
À mon avis, cela ressemble plus à un bruit aléatoire qu'au langage secret de DALL-E 2.
Il aimait le médecin, espérant qu'il pourrait donner des preuves contraires.
Il n'y a pas encore de réponse.
Mais c'est effectivement un sujet qui mérite attention et discussion. Compte tenu du fait que certains "sorts" et images peuvent être associés, s'il s'agit bien d'un code BPE, alors il est fort possible que le médecin ait dit :
Quelqu'un utilise la méthode "boîte blanche" pour démêler cette règle et obtenir quelques "sorts" de mots interdits, vous pouvez contourner le filtre du modèle.
Lien de référence :
[1]https://twitter.com/giannis_daras/status/1531693093040230402
[2]https://twitter.com/BarneyFlames/status/1531736708903051265
[3]https https://twitter.com/benjamin_hilton/status/1531780892972175361
[4]https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf
[5]https://zhuanlan.zhihu.com/p/424631681
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!