Heim > Artikel > Technologie-Peripheriegeräte > Kann KI Emotionen abbilden? Sehen Sie, wie DALL-E Abstraktion ausdrückt
Was sind die Trends in der Entwicklung der künstlichen Intelligenz im Jahr 2022?
Erwähnen Sie unbedingt den Aufstieg der „multimodalen KI“, insbesondere von Tools zur Text-zu-Bild-Generierung.
Von DALL-E bis hin zu Imagen, Parti, Nuwa usw. können sie alle qualitativ hochwertige Bilder erzeugen, die erstaunlich sind.
Das typischste Beispiel hierfür ist Dall-E2 von OpenAI.
Seit Dall-E herausgekommen ist, haben Sie vielleicht gesehen, dass es viele Bilder im Malstil erzeugt hat, wie zum Beispiel Astronauten, die im Weltraum auf Pferden reiten.
Allerdings gibt es nur sehr wenige Bilder, die abstrakte Konzepte durch Dall-E ausdrücken.
Nein, die Wissenschaftlerin für maschinelles Lernen, Gabriele Sgroi, kam, um zu untersuchen, wie DALL-E diese Aufgabe erledigt.
Er testete Ölpastelle und Malstile zu Themen wie Traurigkeit, Liebe, Wut, Glück, Gerechtigkeit und Ungerechtigkeit. „Öl-Pastell-Stil“
Glück
Liebe
Malstil
TraurigkeitLiebe
wütend
Glück
Es gibt auch Gemälde mit anderen abstrakten Konzepten zu schätzen: Gerechtigkeit und Ungerechtigkeit
Gerechtigkeit
Ungerechtigkeit
Gabriele Sgroi glaubt, dass Zeichnen aufschlussreicher sein kann, anstatt emotionale Bilder auf den Gesichtsausdruck der Menschen zu beschränken.
Alle Bilder in diesem Artikel (einschließlich des Titelbilds) wurden mit DALL-E generiert, indem alle von der ersten Generation bereitgestellten Bilder aus der angegebenen Eingabeaufforderung ausgewählt wurden.
Wie an diesen Beispielen zu sehen ist, weist DALL-E im Malstil generell abstraktere und komplexere Bilder auf, wobei eine bestimmte Emotion nicht immer klar erkennbar ist.
Unter ihnen stellen die meisten Bilder, die Gerechtigkeit darstellen, eine griechische Göttin dar, aber die Bilder, die Ungerechtigkeit darstellen, sind wirklich verwirrend.
Insgesamt stellte Sgroi fest, dass die Ergebnisse stark vom gewählten Stil abhängen.
Und in den meisten Fällen schreibt DALL-E den Namen der Emotion auf die generierte Zeichnung.
Insgesamt schien DALL-E ein gewisses Maß an Verständnis für die getesteten Emotionen zu zeigen und sie korrekt mit Gesichtsausdrücken und den typischerweise damit verbundenen Farben oder Symbolen zu verbinden.
Sgroi sagte, es wäre interessant, die Unterschiede in der Darstellung derselben Emotionen über verschiedene Stile hinweg weiter zu untersuchen und zu untersuchen, ob die beobachtete Verzerrung zwischen positiven und negativen Emotionen in anderen Beispielen fortbesteht.
Ironischerweise behauptet DALL-E 2, die Textaufforderungen, die zum Generieren von Bildern verwendet werden, gut zu verstehen.
Einige Internetnutzer haben jedoch festgestellt, dass der Textinhalt in das generierte Bild eingefügt wird, wenn der Text derzeit nicht verstanden werden kann.
Wie zum Beispiel „This is Not a Pipe“, ein Gemälde des Künstlers Rene Magritte.
Außerdem bat Janelle Shane, eine künstliche Intelligenz, DALL-E 2, ein Firmenlogo zu erstellen, musste jedoch feststellen, dass die Wörter auf keinem der Bilder richtig geschrieben waren.
Beispiel zur Erzeugung eines Waffelhauses
Man könnte auch sagen, dass DALL-E 2 einige wissenschaftliche Gesetze kennt.
Weil es leicht fallende Objekte oder im Weltraum schwebende Astronauten darstellen kann.
Aber wenn Sie eine Anatomie, ein Röntgenbild, einen mathematischen Beweis oder einen Bauplan erstellen möchten, ist das resultierende Bild möglicherweise oberflächlich korrekt, aber grundsätzlich falsch.
Zum Beispiel kann man auf dem maßstabsgetreuen Bild des Sonnensystems sagen, dass es ein Durcheinander ist, mit der Form der Erde in der unteren linken Ecke und einem Objekt, das wie ein pochiertes Ei aussieht die obere linke Ecke.
OpenAI-Forscher Aditya Ramesh erklärt, dass es versucht, etwas visuell Ähnliches zu erfinden, ohne die Bedeutung zu verstehen.
DALL-E 2 weiß also nicht, was Wissenschaft ist, es kann nur Texte lesen und Illustrationen zeichnen.
Und wenn DALL-E 2 Charaktergesichter generiert, sind sie so lebensecht, dass es fast unglaublich ist.
Während des Trainings führte OpenAI Deepfake-Schutzmaßnahmen ein, um zu verhindern, dass es sich Gesichter merkt, die häufig im Internet auftauchen.
Wenn das hochgeladene Bild echte Gesichter enthält, sogar unbekannte Personen, weigert sich das System, den Inhalt zu generieren.
Es entsteht jedoch ein weiteres Problem, dass das System für Bilder mit einem einzigen Aufmerksamkeitsfokus optimiert ist „Sehnsuchtsausdruck“ ist diese Art der detaillierten Porträtgenerierung immer noch sehr erfolgreich.
Als DALL-E jedoch gebeten wurde, Bilder von mehreren Personen gleichzeitig zu erstellen, stürzte es direkt ab. Es wird also wirklich schlecht, Gruppenaufnahmen und Massenszenen zu erzeugen.
Darüber hinaus erzeugt DALL-E auch einige voreingenommene Bilder.
Derzeit hat das OpenAI-Team damit begonnen, Vorurteile durch maschinelles Lernen zu korrigieren.
Während des Trainings von DALL-E 2 passten die Forscher beispielsweise die Trainingsmethode an und erhöhten die Gewichtung weiblicher Bilder, damit diese mit größerer Wahrscheinlichkeit generiert wurden.
DALL-E wird in Zukunft weitere Überraschungen bringen.
Das obige ist der detaillierte Inhalt vonKann KI Emotionen abbilden? Sehen Sie, wie DALL-E Abstraktion ausdrückt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!