Heim >Technologie-Peripheriegeräte >KI >OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

PHPz
PHPznach vorne
2023-08-29 20:25:03732Durchsuche

In den letzten Jahren wurden viele überraschende Durchbrüche im Bereich textgenerierter Bilder erzielt, und viele Modelle sind in der Lage, auf der Grundlage von Textanweisungen hochwertige und vielfältige Bilder zu erstellen. Obwohl die erzeugten Bilder bereits sehr realistisch sind, sind aktuelle Modelle in der Regel gut in der Lage, physische Bilder wie Landschaften und Objekte zu erzeugen, haben jedoch Schwierigkeiten, Bilder mit hochkohärenten Details zu erzeugen, wie etwa Bilder mit komplexem Glyphentext wie chinesischen Schriftzeichen

Um dieses Problem zu lösen Problem, von Forschern von OPPO und anderen Institutionen haben ein universelles Lernframework namens GlyphDraw vorgeschlagen. Das Ziel dieses Frameworks besteht darin, es Modellen zu ermöglichen, Bilder zu generieren, in die kohärenter Text eingebettet ist. Diese Arbeit ist die erste, die das Problem der Generierung chinesischer Schriftzeichen im Bereich der Bildsynthese löst

Link zur Projekt-Homepage: https://1073521013.github.io/glyph-draw.github.io/

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

    Werfen wir zunächst einen Blick auf den Generierungseffekt, beispielsweise die Generierung von Warnslogans für die Ausstellungshalle:
  • Werbetafeln erstellen:

Fügen Sie kurze Textbeschreibungen zu Bildern hinzu und variieren Sie auch die Textstile

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

Ein weiteres interessantes und praktisches Beispiel ist das Generieren von Emoticons:

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

Obwohl die Ergebnisse insgesamt einige Mängel aufweisen Die Forschung hat hervorragende Ergebnisse erbracht. Zu den Hauptbeiträgen dieser Forschung gehören:

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

Diese Forschung schlägt ein Framework zur Generierung chinesischer Schriftzeichenbilder namens GlyphDraw vor. Während des gesamten Generierungsprozesses kann das Framework mithilfe von Hilfsinformationen wie Glyphen und Positionen chinesischer Schriftzeichen eine feinkörnige Anleitung bereitstellen, sodass die generierten Bilder chinesischer Schriftzeichen nahtlos und mit hoher Qualität in das Bild eingebettet werden können Diese Studie schlägt eine effektive Trainingsstrategie vor, die die starke Leistung des Modells bei der Generierung offener Domänen erfolgreich aufrechterhält, indem sie die Anzahl der trainierbaren Parameter im vorab trainierten Modell begrenzt, um Überanpassung und katastrophales Vergessen zu verhindern, und kann Bilder chinesischer Schriftzeichen genau generieren

OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons Diese Studie beschreibt detailliert den Prozess der Erstellung eines Trainingsdatensatzes und schlägt eine neue Basismethode zur Bewertung der Qualität der Bildgenerierung chinesischer Schriftzeichen vor. Unter anderem erreichte die Generierungsgenauigkeit von GlyphDraw 75 %, was deutlich besser ist als bei der vorherigen Bildsynthesemethode . Anschließend wird unter Verwendung des Open-Source-Bildsynthesealgorithmus Stable Diffusion ein allgemeines Lernframework GlyphDraw vorgeschlagen, wie in Abbildung 2 dargestellt. Das allgemeine Trainingsziel der stabilen Diffusion kann als folgende Formel ausgedrückt werden:

  • GlyphDraw basiert auf Stabil Der Kreuzaufmerksamkeitsmechanismus in der Diffusion. Es kaskadiert den latenten Vektor z_t der ursprünglichen Eingabe mit dem latenten Vektor z_t des Bildes, der Textmaske l_m und dem Glyphenbild l_g

  • Darüber hinaus wird Bedingung C durch die Verwendung eines domänenspezifischen Fusionsmoduls mit gemischt ausgestattet Glyphen- und Textfunktion. Die Einführung von Textmasken- und Glypheninformationen ermöglicht es dem gesamten Trainingsprozess, eine feinkörnige Diffusionskontrolle zu erreichen, die eine Schlüsselkomponente zur Verbesserung der Modellleistung und letztendlich zur Generierung von Bildern mit chinesischem Schriftzeichentext ist

  • Insbesondere die Pixeldarstellung von Textinformationen Insbesondere bei komplexen Textformen wie piktografischen chinesischen Schriftzeichen gibt es offensichtliche Unterschiede zu natürlichen Objekten. Beispielsweise besteht das chinesische Wort „Himmel“ aus mehreren Strichen in einer zweidimensionalen Struktur, und das entsprechende natürliche Bild ist „blauer Himmel mit weißen Wolken übersät“. Im Gegensatz dazu sind chinesische Schriftzeichen sehr feinkörnig und selbst kleine Bewegungen oder Verformungen können dazu führen, dass der Text falsch gerendert wird, was die Bilderzeugung unmöglich macht
  • Das Einbetten von Zeichen in natürliche Bildhintergründe erfordert auch die Berücksichtigung eines Schlüsselproblems, nämlich der genauen Steuerung der Erzeugung von Textpixeln, ohne die angrenzenden natürlichen Bildpixel zu beeinträchtigen. Um perfekte chinesische Schriftzeichen auf natürlichen Bildern anzuzeigen, hat der Autor zwei Schlüsselkomponenten entworfen, nämlich Positionskontrolle und Glyphenkontrolle, die in das Diffusionssynthesemodell integriert sind

    Im Gegensatz zur globalen bedingten Eingabe anderer Modelle erfordert die Zeichengenerierung mehr Fokus auf bestimmte lokale Bereiche des Bildes, da sich die zugrunde liegende Merkmalsverteilung von Zeichenpixeln stark von der natürlicher Bildpixel unterscheidet. Um zu verhindern, dass das Modelllernen zusammenbricht, schlägt diese Studie innovativ eine feinkörnige Positionsbereichssteuerung vor, um die Verteilung zwischen verschiedenen Bereichen zu entkoppeln . Angesichts der Komplexität und Vielfalt chinesischer Schriftzeichen ist es sehr schwierig, ohne explizite Vorkenntnisse einfach aus einem großen Bild-Text-Datensatz zu lernen. Um chinesische Schriftzeichen genau zu generieren, führt diese Studie explizite Glyphenbilder als zusätzliche bedingte Informationen in den Verbreitungsprozess des Modells ein

    OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

    Um die ursprüngliche Bedeutung unverändert zu lassen, muss der Inhalt ins Chinesische umgeschrieben werden Nachfolgend der umgeschriebene Inhalt: Forschungsdesign und experimentelle Ergebnisse

    Da es keinen früheren Datensatz speziell für die Bildgenerierung chinesischer Schriftzeichen gibt, wurde in dieser Studie zunächst ein Benchmark-Datensatz ChineseDrawText für die qualitative und quantitative Bewertung erstellt. Anschließend testeten die Forscher die Generierungsgenauigkeit mehrerer Methoden auf ChineseDrawText und bewerteten sie anhand des OCR-Erkennungsmodells

    OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von EmoticonsDas in dieser Studie vorgeschlagene GlyphDraw-Modell erzielte eine durchschnittliche Genauigkeit, indem es die Hilfsglyphen- und Positionsinformationen vollständig nutzte. Der hervorragende Effekt von 75 % beweist die hervorragende Fähigkeit des Modells bei der Generierung von Charakterbildern. Die folgende Abbildung zeigt die visuellen Vergleichsergebnisse mehrerer Methoden

    OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons Darüber hinaus kann GlyphDraw auch die Leistung der Bildsynthese im offenen Bereich aufrechterhalten, indem die Trainingsparameter eingeschränkt werden. Auf MS-COCO FID-10k ist der FID der allgemeinen Bildsynthese nur um ein Vielfaches gesunken 2.3

    OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons

    OPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von EmoticonsInteressierte Leser können den Originaltext des Artikels lesen, um weitere Forschungsdetails zu erfahren.

Das obige ist der detaillierte Inhalt vonOPPO schlägt GlyphDraw vor: Generierung von Bildern mit chinesischen Schriftzeichen mit einem Klick, Diffusionsmodell zur Ausgabe von Emoticons. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen