Maison >Périphériques technologiques >IA >L'IA peut-elle cartographier les émotions ? Découvrez comment DALL-E exprime l'abstraction
Quelles sont les tendances de développement de l’intelligence artificielle en 2022 ?
N'oubliez pas de mentionner l'essor de « l'IA multimodale », notamment les outils de génération de texte en image.
De DALL-E à Imagen, Parti, Nuwa, etc., ils peuvent tous générer des images de haute qualité qui sont étonnantes.
L'exemple le plus typique est le Dall-E2 d'OpenAI.
Depuis la sortie de Dall-E, vous l'avez peut-être vu générer de nombreuses images de style peinture, telles que des astronautes montant à cheval dans l'espace.
Cependant, il existe très peu d'images qui expriment des concepts abstraits à travers Dall-E.
Non, Gabriele Sgroi, scientifique en apprentissage automatique, est venu explorer comment DALL-E accomplit cette tâche.
Il a testé les pastels à l'huile et les styles de peinture sur des thèmes tels que la tristesse, l'amour, la colère, le bonheur, la justice et l'injustice. style pastel à l'huile
Bonheur
Amour
Style de peinture
TristesseAmour
en colère
Bonheur
Il y a aussi des peintures d'autres concepts abstraits à apprécier : Justice et injustice
Justice
Injustice
Gabriele Sgroi estime que le dessin peut être plus perspicace plutôt que de limiter les images émotionnelles aux expressions faciales des gens.
Toutes les images de cet article (y compris l'image de couverture) ont été générées à l'aide de DALL-E en sélectionnant toutes les images fournies par la première génération à partir de l'invite donnée.
Comme le montrent ces exemples, DALL-E expose généralement des images plus abstraites et complexes dans le style de la peinture, même si une émotion donnée n'est pas toujours clairement identifiable.
Parmi elles, la plupart des images représentant la justice représentent une déesse grecque, mais les images représentant l'injustice sont vraiment déroutantes.
Dans l'ensemble, Sgroi a observé que les résultats dépendent fortement du style choisi.
Et dans la plupart des cas, DALL-E inscrira le nom de l'émotion sur le dessin généré.
Dans l'ensemble, DALL-E semblait montrer un niveau de compréhension des émotions testées, les associant correctement aux expressions faciales et aux couleurs ou symboles qui leur sont généralement associés.
Sgroi a déclaré qu'il serait intéressant d'étudier plus en détail les différences dans la représentation des mêmes émotions selon les styles et d'examiner si le biais observé entre les émotions positives et négatives persiste dans d'autres exemples.
Ironiquement, DALL-E 2 prétend être doué pour comprendre les invites textuelles utilisées pour générer des images.
Cependant, certains internautes ont découvert que lorsque le texte ne peut pas être compris actuellement, le contenu du texte sera placé dans l'image générée.
Comme "This is Not a Pipe", un tableau de l'artiste René Magritte.
Une autre intelligence artificielle, Janelle Shane, a demandé à DALL-E 2 de générer un logo d'entreprise, pour découvrir qu'aucune des images n'épelait correctement les mots.
Exemple de génération de Waffle House
De plus, on pourrait dire que DALL-E 2 connaît certaines lois scientifiques.
Parce qu'il peut facilement représenter des objets qui tombent ou des astronautes flottant dans l'espace.
Mais si vous souhaitez générer une anatomie, une image radiographique, une preuve mathématique ou un plan, l'image résultante peut être superficiellement correcte mais fondamentalement fausse.
Par exemple, sur l'image du système solaire dessinée à l'échelle, on peut dire que c'est un désordre, avec la forme de la terre dans le coin inférieur gauche et un objet semblable à un œuf poché dans le coin supérieur gauche.
Aditya Ramesh, chercheur à OpenAI, explique qu'il essaie d'inventer quelque chose de visuellement similaire sans en comprendre le sens.
Donc DALL-E 2 ne sait pas ce qu'est la science, il sait seulement lire du texte et dessiner des illustrations.
Et lorsque DALL-E 2 génère des visages de personnages, ils sont si réalistes que c'est presque incroyable.
Pendant la formation, OpenAI a introduit des mesures de protection contre les deepfakes pour l'empêcher de se souvenir des visages qui apparaissent souvent sur Internet.
Si l'image téléchargée contient des visages réels, même des personnes inconnues, le système refusera de générer le contenu.
Cependant, un autre problème se pose. OpenAI a déclaré que le système est optimisé pour les images avec un seul foyer d'attention
Par exemple, générer "un astronaute regardant la terre, son visage" avec un expression du désir" ce genre de génération de portraits détaillés est toujours très réussi.
Cependant, lorsqu'il a été demandé à DALL-E de générer des images de plusieurs personnes à la fois, il s'est écrasé directement. Cela devient donc vraiment difficile de générer des photos de groupe et des scènes de foule.
De plus, DALL-E génère également des images biaisées.
Actuellement, l'équipe OpenAI a commencé à corriger les préjugés grâce à l'apprentissage automatique.
Par exemple, lors de la formation de DALL-E 2, les chercheurs ont ajusté la méthode de formation et augmenté le poids des images féminines afin qu'elles soient plus susceptibles d'être générées.
DALL-E apportera plus de surprises à l'avenir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!