Heim > Artikel > Technologie-Peripheriegeräte > KI, die Handschrift imitieren und exklusive Schriftarten für Sie erstellen kann
Wie das Sprichwort sagt: Wörter sind wie Gesichter und Wörter sind wie Menschen. Im Vergleich zu starren Druckschriften kann die Handschrift die persönlichen Eigenschaften des Autors besser widerspiegeln. Ich glaube, viele Menschen haben sich schon einmal vorgestellt, ihre eigenen Handschriftschriften zu haben und diese in sozialer Software zu verwenden, um ihren persönlichen Stil besser zum Ausdruck zu bringen.
Im Gegensatz zu englischen Buchstaben ist die Anzahl chinesischer Schriftzeichen jedoch extrem groß und die Erstellung einer eigenen exklusiven Schriftart ist sehr teuer. Beispielsweise enthält der neu veröffentlichte chinesische Zeichensatz GB18030-2022 des nationalen Standards mehr als 80.000 chinesische Schriftzeichen. Berichten zufolge hat ein Blogger auf einer Video-Website 18 Stunden damit verbracht, mehr als 7.000 chinesische Schriftzeichen zu schreiben und dabei 13 Stifte zu verwenden, und seine Hände waren vom Schreiben taub!
Die oben genannten Fragen veranlassten den Autor des Artikels, darüber nachzudenken: Kann er ein automatisches Textgenerierungsmodell entwerfen, um das Problem der hohen Kosten für die Erstellung exklusiver Schriftarten zu lösen? Um dieses Problem zu lösen, stellten sich die Forscher eine KI vor, die Handschrift nachahmen kann. Der Benutzer muss lediglich eine kleine Anzahl von Handschriftproben (etwa ein Dutzend) bereitstellen, um den in der Handschrift enthaltenen Schreibstil zu extrahieren (z. B. die Größe der Handschrift). Zeichen, Neigungsgrad, Neigungsgrad usw.) Seitenverhältnis, Strichlänge und Krümmung usw.) und kopieren Sie den Stil, um mehr Text zu synthetisieren und so effizient einen vollständigen Satz handschriftlicher Schriftarten für Benutzer zu synthetisieren.
Ferner machte sich der Autor des Papiers die folgenden Gedanken zu den Eingabe- und Ausgabemodalitäten des Modells aus den beiden Perspektiven Anwendungswert und Benutzererfahrung: 1. Berücksichtigung der Online-Schriftart des Die Sequenzmodalität (Online-Handschrift) enthält umfangreichere Informationen als Offline-Handschrift im Bildmodus (detaillierte Positionen und Schreibreihenfolge der Spurpunkte, wie in der Abbildung unten gezeigt). Wenn Sie den Ausgabemodus des Modells auf Online-Text festlegen, ist der Anwendungsbereich größer Perspektiven wie Roboterschreiben und Kalligraphieunterricht. 2. Im täglichen Leben ist es für Menschen bequemer, Mobiltelefone zum Aufnehmen von Fotos zu verwenden, um Offline-Texte zu erhalten, als Online-Texte über Erfassungsgeräte wie Tablets und Touch-Pens abzurufen. Daher wird die Verwendung für Benutzer komfortabler, wenn der Eingabemodus des generierten Modells auf Offline-Text eingestellt wird!
Zusammenfassend besteht das Forschungsziel dieses Artikels darin, eine Methode zur stilisierten Online-Handschriftgenerierung vorzuschlagen. Dieses Modell kann nicht nur den Schreibstil kopieren, der im vom Benutzer bereitgestellten Offline-Text enthalten ist, sondern auch online eine inhaltssteuerbare Handschrift entsprechend den Anforderungen des Benutzers generieren.
Um die oben genannten Ziele zu erreichen, analysierten die Forscher zwei Schlüsselprobleme: 1. Da Benutzer nur eine kleine Anzahl von Zeichenbeispielen bereitstellen können, kann der einzigartige Schreibstil des Benutzers nur aus dieser kleinen Anzahl von Referenzbeispielen erlernt werden ? Mit anderen Worten: Ist es möglich, den Schreibstil eines Benutzers anhand einer kleinen Anzahl von Referenzbeispielen zu kopieren? 2. Das Forschungsziel dieses Artikels besteht nicht nur darin, sicherzustellen, dass der generierte Textstil kontrollierbar ist, sondern auch, dass auch der Inhalt kontrollierbar ist. Wie kann man also nach dem Erlernen des Schreibstils des Benutzers den Stil effizient mit dem Textinhalt kombinieren, um eine Handschrift zu erzeugen, die den Erwartungen des Benutzers entspricht? Schauen wir uns als Nächstes an, wie die in diesem CVPR 2023 vorgeschlagene SDT-Methode (Style Disentangled Transformer) diese beiden Probleme löst.
Forschungsmotivation Forscher fanden heraus, dass es in der persönlichen Handschrift normalerweise zwei Schreibstile gibt: 1. Es gibt eine allgemeine stilistische Gemeinsamkeit in der Handschrift desselben Autors, und jedes Zeichen erscheint ähnlich Neigung und Seitenverhältnis sind unterschiedlich und verschiedene Autoren haben unterschiedliche stilistische Gemeinsamkeiten. Da sich anhand dieses Merkmals verschiedene Autoren unterscheiden lassen, nennen Forscher es Schreibstil. 2. Zusätzlich zu den allgemeinen stilistischen Gemeinsamkeiten gibt es detaillierte stilistische Inkonsistenzen zwischen verschiedenen Charakteren desselben Autors. Beispielsweise haben die beiden Zeichen „黑“ und „杰“ den gleichen vierpunktigen Wasserradikal in der Zeichenstruktur, es gibt jedoch leichte Schreibunterschiede in der Schreibweise dieses Radikals in verschiedenen Zeichen, was sich in der Länge widerspiegelt der Striche, Position und Krümmung. Forscher bezeichnen dieses subtile Stilmuster in Glyphen als Glyphenstil. Inspiriert durch die obigen Beobachtungen zielt SDT darauf ab, den Schreib- und Glyphenstil von der persönlichen Handschrift zu entkoppeln, in der Hoffnung, die Fähigkeit zur Nachahmung des Handschriftstils des Benutzers zu verbessern.
Nach dem Erlernen von Stilinformationen verwendet SDT im Gegensatz zu früheren Methoden zur Generierung von handschriftlichem Text, die einfach Stil- und Inhaltsmerkmale zusammenfügen, Inhaltsmerkmale als Abfragevektoren, um Stilinformationen adaptiv zu erfassen und so eine effiziente Integration von Stil und Inhalt zur Generierung von Handschrift zu erreichen das den Erwartungen der Benutzer entspricht.
Methoden-Framework Das Gesamt-Framework von SDT ist in der folgenden Abbildung dargestellt, einschließlich drei Teilen: Dual-Branch-Encoder, Inhalts-Encoder und Transformator-Decoder. Zunächst werden in diesem Artikel zwei komplementäre kontrastive Lernziele vorgeschlagen, um den Writer-Zweig und den Glyph-Zweig des Stilkodierers anzuleiten, jeweils die entsprechende Stilextraktion zu erlernen. Anschließend verwendet SDT den Aufmerksamkeitsmechanismus des Transformators (Mehrkopfaufmerksamkeit), um die vom Inhaltsencoder extrahierten Stilmerkmale und Inhaltsmerkmale dynamisch zu verschmelzen und schrittweise handgeschriebenen Online-Text zu synthetisieren.
(a) Kontrastives Lernen im Schreibstil SDT schlägt ein überwachtes kontrastives Lernziel (WriterNCE) für die Extraktion des Schreibstils vor, das Charakterproben desselben Autors zusammenfasst und drückt Die Weiterleitung von Handschriftproben verschiedener Autoren führt die Autoren ausdrücklich dazu, sich zu verzweigen und sich auf stilistische Gemeinsamkeiten in der individuellen Handschrift zu konzentrieren.
(b) Glyph Style Contrastive Learning Um detailliertere Glyphenstile zu lernen, schlägt SDT ein unbeaufsichtigtes kontrastives Lernziel (GlyphNCE) vor, das verwendet wird, um die gegenseitige Information zwischen verschiedenen Ansichten desselben zu maximieren Zeichen und Ermutigung Der Glyphenzweig konzentriert sich auf das Erlernen detaillierter Muster in Zeichen. Führen Sie, wie in der Abbildung unten gezeigt, zunächst zwei unabhängige Proben desselben handgeschriebenen Zeichens aus, um ein Paar positiver Proben
und
mit Strichdetailinformationen zu erhalten, und wählen Sie diese dann aus anderen aus Zeichen Sampling führt zu negativen Proben
. Bei jeder Probenahme wird eine kleine Anzahl von Probenblöcken zufällig als neue Perspektive ausgewählt, die die Details der ursprünglichen Probe enthält. Die Abtastung der Abtastblöcke folgt einer gleichmäßigen Verteilung, um eine Überabtastung bestimmter Bereiche der Zeichen zu vermeiden. Um den Glyphenzweig besser steuern zu können, wirkt sich der Abtastprozess direkt auf die vom Glyphenzweig ausgegebene Merkmalssequenz aus.
(c) Fusionsstrategie von Stil- und Inhaltsinformationen Wie können die beiden Stilfunktionen nach Erhalt der beiden Stilfunktionen effizient in die vom Inhaltsencoder erlernte Inhaltskodierung integriert werden? Um dieses Problem zu lösen, betrachtet SDT zu jedem Dekodierungszeitpunkt t die Inhaltsmerkmale als Anfangspunkt und kombiniert dann die vor den Zeitpunkten q und t ausgegebenen Trajektorienpunkte, um einen neuen Inhaltskontext zu bilden
. Als nächstes wird der Inhaltskontext als Abfragevektor und die Stilinformationen als Schlüssel- und Wertvektoren behandelt. Durch die Integration des Cross-Attention-Mechanismus werden Inhaltskontext und zwei Stilinformationen nacheinander dynamisch aggregiert.
Experimente
Quantitative Auswertung
SDT hat die beste Leistung bei chinesischen, japanischen, indischen und englischen Datensätzen erzielt, insbesondere beim Style-Score-Index, verglichen mit SDT vor der SOTA-Methode große Durchbrüche erzielt.
Qualitative Auswertung
Im Vergleich zu früheren Methoden können die von SDT generierten handschriftlichen Zeichen vermieden werden der Zusammenbruch von Zeichen Es kann auch das kopieren Der Schreibstil des Benutzers ist sehr gut. Dank des Glyphen-Stil-Lernens kann SDT auch gute Arbeit bei der Generierung von Strichdetails von Zeichen leisten.
SDT funktioniert auch in anderen Sprachen gut. Insbesondere im Hinblick auf die Generierung indischer Texte können bestehende Mainstream-Methoden problemlos reduzierte Zeichen generieren, unser SDT kann jedoch weiterhin die Korrektheit des Zeicheninhalts aufrechterhalten.
Der Einfluss verschiedener Module auf die Algorithmusleistung
Wie in der folgenden Tabelle gezeigt, hat jedes in diesem Artikel vorgeschlagene Modul einen synergistischen Effekt und verbessert effektiv die Leistung beim Kopieren von Benutzerhandschriften. Insbesondere verbessert die Hinzufügung des Schreibstils die Nachahmung des gesamten Zeichenstils durch SDT, wie z. B. die Neigung und das Seitenverhältnis der Zeichen, während die Hinzufügung des Glyphenstils die Strichdetails der generierten Zeichen verbessert. Im Vergleich zur einfachen Fusionsstrategie bestehender Methoden verbessert die adaptive dynamische Fusionsstrategie von SDT die Leistung der Zeichengenerierung in verschiedenen Indikatoren umfassend.
Visuelle Analyse der beiden Stile
Führen Sie eine Fourier-Transformation für die beiden Stilmerkmale durch, um das folgende Spektrogramm zu erhalten Mehr niederfrequente Komponenten, während sich der Glyph-Stil hauptsächlich auf hochfrequente Komponenten konzentriert. Tatsächlich enthalten die niederfrequenten Komponenten den Gesamtumriss des Ziels, während die hochfrequenten Komponenten den Details des Objekts mehr Aufmerksamkeit schenken. Dieser Befund bestätigt und erklärt die Wirksamkeit des entkoppelten Schreibstils weiter.Jeder kann durch Handschrift-KI seine eigenen exklusiven Schriftarten erstellen und sich auf sozialen Plattformen besser ausdrücken! Vorausschauend
Das obige ist der detaillierte Inhalt vonKI, die Handschrift imitieren und exklusive Schriftarten für Sie erstellen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!