Heim > Artikel > Technologie-Peripheriegeräte > Ein KI-Malmodell mit einem starken Verständnis der traditionellen chinesischen Kultur. Die Gemälde sind greifbar und spirituell und vermitteln Konfuzianismus, Buddhismus und Taoismus.
In letzter Zeit erfreut sich die KI-Malerei großer Beliebtheit im In- und Ausland. Verschiedene von KI-Malmodellen generierte Bilder sind in verschiedenen sozialen Medien verbreitet. Letzten Monat gewann die Arbeit eines Spieledesigners „Space Opera“, die mit dem KI-Zeichentool Midjourney erstellt wurde, die Goldmedaille beim Kunstwettbewerb der Colorado State Fair.
Davon inspiriert Das Team von Professor Lu Zhiwu an der Renmin-Universität von China kombinierte auf innovative Weise das selbst entwickelte multimodale Pre-Training-Modell Wenlan mit der neuesten Bilderzeugungstechnologie, um ein KI-Gemälde zu schaffen, das die traditionelle chinesische Kultur am besten versteht Modell generieren .
Das Wenlan-Modell ist ein groß angelegtes chinesisches multimodales Pre-Training-Modell unter der Leitung von Professor Wen Jirong, Executive Dean der Hillhouse School of Artificial Intelligence der Renmin University of China, Professor Lu Zhiwu und dem ständigen außerordentlichen Professor Song Ruihua . Das Wenlan-Modell wurde durch 650 Millionen schwach verwandte chinesische Bild-Text-Paare vorab trainiert und hat einzigartige chinesische semantische Verständnisfähigkeiten erlernt und kann chinesische Semantik gut mit visuellen Informationen verbinden. Es ist besonders gut im Lesen einzigartiger Chinesische Schriftzeichen haben in den Bildern eine implizite Semantik und abstrakte Konzepte.
Im Juni dieses Jahres wurden die entsprechenden Forschungsergebnisse „Towards Artificial General Intelligence via a Multimodal Foundation Model“ in Nature Communications veröffentlicht.
Link zum Papier: https://www.nature.com/articles/s41467-022-30761-2
Das Forschungsteam Durch die Nutzung des Potenzials des Wenlan-Modells, die innovative Kombination mit der Technologie der neuesten Generation, die Integration der abstrakten semantischen Verständnisfähigkeiten von Wenlan und der leistungsstarken Generierungsfähigkeiten des generativen Modells stellen wir sicher, dass das resultierende Modell die Semantik des Eingabetextes hervorragend interpretieren kann Generieren Sie Bilder mit entsprechender Semantik. Das
-Team konzentriert sich auf die Erforschung des Potenzials von Wenlan in der traditionellen chinesischen Kultur, das Ausleihen der neuesten generativen Modellarchitektur und das Training anhand der gesammelten chinesischen Malereidatensätze. Das resultierende Modell kann basierend auf dem Eingabetext entsprechende Stile generieren. Bilder . Das detaillierte Architekturdiagramm ist unten dargestellt.
Konkret trainierte das Team ein bedingungsloses Generierungsmodell auf dem chinesischen Maldatensatz und nutzte das Wenlan-Modell, um den Generierungsprozess durch iterative Generierung zu steuern.
Diese Methode initialisiert zunächst zufällig ein Rauschbild. In jedem Generierungsschritt passt das Modell den Inhalt des generierten Bildes in eine Richtung an, die dem Eingabetext nahe kommt, sodass der Inhalt des in jedem Schritt generierten Bildes und der Eingabetext im latenten Raum des generierten Bildes tendenziell konsistent sind Wenlan-Modell. Dieser Schritt kann wie folgt beschrieben werden:
wobei x und y Bilder bzw. Text darstellen, IE und TE jeweils Wenlans Bild-Encoder und Text-Encoder darstellen. Durch kontinuierliche Iteration kann dieses Modell die Funktion erfüllen, hochwertige Symbolbilder basierend auf der Textsemantik zu generieren.
Aufgrund der Eigenschaften des Wenlan-Modells selbst kann das Wenlan-Malmodell entsprechende Bilder basierend auf den eingegebenen alten chinesischen Gedichten generieren. Wie aus den folgenden Beispielen hervorgeht, stimmen die vom Modell generierten Bilder sehr gut mit dem Inhalt und der künstlerischen Konzeption antiker Gedichte überein.
Gleichzeitig entdeckte das Team auch, dass Wenlans Malmodell sogar eine einzigartige Interpretation des obskuren Konfuzianismus, Buddhismus und Taoismus enthält.
Um die Merkmale von Wenlans Malmodell bei der Interpretation von Konfuzianismus, Buddhismus und Taoismus besser zu demonstrieren, wählte das Team die beliebtesten KI-Malmodelle im In- und Ausland für eine vergleichende Analyse aus, darunter Dream Stealer, Wen Xin , Disco-Diffusion, Midjourney und stabile Diffusion. Für Disco Diffusion, Midjourney und Stable Diffusion muss der chinesische Text zunächst von Baidu übersetzt werden.
Den in der folgenden Abbildung generierten Ergebnissen nach zu urteilen, neigen Dream Stealer, Disco Diffusion, Midjourney und Stable Diffusion dazu, einige konkrete Objekte in Sätzen oder einige Bilder zu generieren, die es sind Relativ komplex. Gute Bilder, aber der Inhalt hat nicht viel mit dem Satz zu tun. Wenxin tendiert dazu, Bilder mit Charakteren zu erzeugen und entspricht sogar direkt dem Licht einer brennenden Kerze.
Das Wenlan-Malmodell kann die Bedeutung des gesamten Satzes und des darin enthaltenen konfuzianischen Gedankens besser lesen und so Bilder erzeugen, die diesem Gedanken besser entsprechen.
Zweitens für Texteingabe mit buddhistischen Gedanken sind derzeit nur die beliebtesten Modelle der Malgeneration Manche der konkreten Objekte lassen sich gezielt erfassen und generieren, bei manchen Malmodellen kann es sein, dass die Ideen sogar missverstanden werden.
Wie in den generierten Ergebnissen in der Abbildung unten gezeigt, verstand Wen Xin: „Wer das Tao sieht und die Berge vergisst, wird einsam auf der Welt sein, und diejenigen, die das tun.“ Sehen Sie die Berge und vergessen Sie, dass das Tao auch in den Bergen laut sein wird“ als taoistischer Konzeptgedanke (der das Bild eines taoistischen Priesters erzeugt). Das Wenlan-Malmodell kann die buddhistischen Gedanken des Eingabetextes gut interpretieren und in den generierten Bildern widerspiegeln.
Schließlich wählte das Team in Bezug auf Taoistisches Denken die drei wichtigsten Sätze aus Tao Te Ching. Im Vergleich zu Dream Stealer, Disco Diffusion, Midjourney und Stable Diffusion verfügt Wen Xin über eine bessere Fähigkeit, das Tao Te Ching zu interpretieren.
Aber insgesamt interpretiert das Wenlan-Malmodell das taoistische Denken genauer und die erzeugten Bilder haben eine eher taoistische künstlerische Konzeption.
Das Wenlan-Team kombiniert die kürzlich beliebte AI-Gemäldegenerierungstechnologie mit dem chinesischen multimodalen Pre-Training-Modell Wenlan, in- Tiefe Das Potenzial des Wenlan-Modells in der traditionellen chinesischen Kultur wird durch das generative Modell erforscht und in Form von Bildern dargestellt, damit die breite Öffentlichkeit ein intuitiveres Verständnis einiger tiefgreifender traditioneller chinesischer Kulturideen erlangen kann.
Das obige ist der detaillierte Inhalt vonEin KI-Malmodell mit einem starken Verständnis der traditionellen chinesischen Kultur. Die Gemälde sind greifbar und spirituell und vermitteln Konfuzianismus, Buddhismus und Taoismus.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!