Heim >Technologie-Peripheriegeräte >KI >Bilderzeugung basierend auf dem Diffusionsmodell

Bilderzeugung basierend auf dem Diffusionsmodell

王林nach vorne: 2023-04-14 14:58:202182Durchsuche

Teil 01 In diesem Artikel wird vorgeschlagen, dass es bei den damaligen generativen Modellen wie VAE große Schwierigkeiten gibt, das heißt, dieser Modelltyp definiert zunächst die bedingte Verteilung und definiert dann die spätere Variation, um sie anzupassen Dies führt jedoch dazu, dass die bedingte Verteilung und die Variation posteriori gleichzeitig optimiert werden müssen. Wenn wir einen einfachen Prozess definieren können, der die Datenverteilung auf einen Standard-Gaußschen Wert abbildet, besteht die Aufgabe des „Generators“ darin, jeden kleinen Schritt des inversen Prozesses dieses Prozesses anzupassen. Dies ist die Kernidee des Diffusionsmodells. . Allerdings sorgte dieser Artikel damals noch für großes Aufsehen.

1.2 EntwicklungIm Jahr 2020 wurde auf der Grundlage früherer Ideen das DDPM-Modell (Diffusion Probabilistic Models) vorgeschlagen, das mit dem Basisdiffusionsmodell verglichen wurde Der Trainings- und Sampling-Prozess führt zu einer entsprechenden Verbesserung der generierten Bildproben, sodass das Endergebnis unter einfacheren und stabileren Trainingsbedingungen mit dem GAN-Modell vergleichbar sein kann.

Abbildung 2 – Generationsergebnisse von DDPM

Da der Diffusionsprozess eine Markov-Kette ist, besteht sein Nachteil darin, dass eine relativ große Anzahl erforderlich ist Nur so können relativ gute Ergebnisse erzielt werden, was zu einer sehr langsamen Probengenerierung führt.

Nach DDPM schlugen Song et al. 2021 DDIM (Denoising Diffusion Implicit Model) vor, das die Sampling-Methode des Diffusionsprozesses von DDPM veränderte und den traditionellen Markov-Diffusionsprozess förderte , können kleinere Probenahmeschritte verwendet werden, um die Probengenerierung zu beschleunigen und so die Effizienz erheblich zu verbessern.

Bilderzeugung basierend auf dem Diffusionsmodell

Es gibt auch einige Verbesserungen in der Folgearbeit zur Integration des Diffusionsmodells in das traditionelle Erzeugungsnetzwerk, wie z. B. die Kombination von VAE- und DM-Modellen, die Kombination von GAN+DM usw. Ich werde es nicht tun Gehen Sie hier auf Details ein.

1.3 Outbreak

Im Jahr 2022 führte Google ein neues KI-System auf Basis des Diffusionsmodells ein, das Textbeschreibungen in realistische Bilder umwandeln kann.

Bild 3

Bild 4 Bilderzeugung basierend auf dem Diffusionsmodell

Wie aus dem von Google bereitgestellten schematischen Diagramm ersichtlich ist, wurde das eingegeben Der Text wird zunächst codiert und dann durch ein Text-zu-Bild-Diffusionsmodell in ein 64 * 64-Kleinbild umgewandelt. Darüber hinaus wird ein hochauflösendes Diffusionsmodell verwendet, um das kleine Bild zu verarbeiten In einem weiteren iterativen Prozess verbessert, um das endgültige generierte Ergebnis zu erhalten, ist ein endgültiges Bild von 1024 * 1024. Dieser magische Vorgang ist genau das, was jeder fühlt, wenn er ihn verwendet. Sie geben einen Text ein – einen Golden Retriever-Hund, der einen rot gepunkteten Rollkragenpullover und eine blau karierte Mütze trägt, und dann generiert das Programm automatisch den obigen Text für Sie gesehen.

Eine weitere beliebte Anwendung auf Phänomenebene - novalAI. Dies war ursprünglich eine Website, die sich dem KI-Schreiben widmete. Basierend auf der aktuellen Bildgeneration kombiniert sie Bilder im Internet. Mithilfe von Ressourcen haben wir trainiert Ein Bilderzeugungsmodell, das sich auf zwei Dimensionen konzentriert, und der Effekt hat begonnen, das Niveau menschlicher Maler zu erreichen.

Bilderzeugung basierend auf dem Diffusionsmodell

# 🎜 🎜#图5

Zusätzlich zur herkömmlichen Eingabe von zu produzierendem Text Bilder Darüber hinaus unterstützt es auch Eingabebilder als Referenz, wodurch die KI neue Bilder basierend auf bekannten Bildern generieren kann, wodurch das Problem unkontrollierbarer Ergebnisse der KI-Generierung bis zu einem gewissen Grad gelöst wird.

Teil 02

● 🎜 nciple Erklärung ●

Was ist also der Arbeitsprozess einer so leistungsstarken KI-Technologie? Hier nehmen wir das klassischere DDPM-Modell als Beispiel, um einen kurzen Prozess zu geben: 🎜#Der Vorwärtsprozess ist ein Prozess, bei dem dem Bild Rauschen hinzugefügt wird, um das Trainingsmuster-GT zu erstellen.

Für eine gegebene anfängliche Datenverteilung x0 ~ q(x) fügen wir der Datenverteilung nach und nach Gaußsches Rauschen hinzu sind T-Zeiten und das Ergebnis jedes Schritts ist x1, x2,...,xt. Die Standardabweichung des Rauschens wird ausgedrückt als: 🎜🎜#

#🎜🎜 #Wie bereits erwähnt, handelt es sich hierbei um einen Markov-Kettenprozess. Letztendlich weisen die Daten tendenziell eine isotrope Gaußsche Verteilung auf.

2.2 Umgekehrter Diffusionsprozess

Der umgekehrte Prozess ist ein Entrauschen Prozess Der Prozess von # erfüllt die Gaußsche Verteilung und

ist klein genug, dann

immer noch eine Gaußsche Verteilung ist, kann Bilderzeugung basierend auf dem Diffusionsmodell nicht einfach abgeleitet werden, daher verwenden wir einen Parameter als

# 🎜🎜#s Deep-Learning-Modell wird verwendet, um es vorherzusagen, also gibt es:

Bilderzeugung basierend auf dem Diffusionsmodell

Wenn x0 bekannt ist, übergeben Sie die Bayesianische Formel ist:

Bilderzeugung basierend auf dem Diffusionsmodell

#🎜🎜 #

2.3 Trainingsprozess

Leser, die etwas über maschinelles Lernen wissen, sollten wissen, dass alle Modelle den Zweck haben Beim Training geht es darum, die Parameter des Modells zu optimieren, um zuverlässige Mittelwerte und Varianzen zu erhalten. Wir maximieren die Log-Likelihood der Vorhersageverteilung des Modells, das heißt: #🎜🎜 ##🎜🎜 #

Bilderzeugung basierend auf dem Diffusionsmodell

Nach einer Reihe von Ableitungen erhielt das DDPM-Modell den endgültigen Verlustfunktionsausdruck: # 🎜🎜#

Bilderzeugung basierend auf dem Diffusionsmodell #🎜🎜 ## 🎜🎜 #

Um den Trainingsprozess zusammenzufassen:

#🎜🎜 #1.# ?? 🎜🎜#2. Probieren Sie ein Rauschen aus der Standard-Gauß-Verteilung

3.#🎜 🎜##🎜🎜 #Berechnen Sie den Verlust und minimieren Sie iterativ die Verlustfunktion
#🎜🎜 #
Bild 6#🎜🎜 ##🎜 🎜# Teil 03

●

Zusammenfassung Bilderzeugung basierend auf dem Diffusionsmodell 🎜🎜##🎜 🎜 #●

Das Diffusionsmodell hat großes Potenzial gezeigt und erfordert im Vergleich zum VAE-Modell keine Ausrichtung der hinteren Verteilung, es besteht keine Notwendigkeit um zusätzliche Diskriminatoren wie GAN zu trainieren, und es hat Anwendungen in den Bereichen Computer Vision, Bioinformatik, Sprachverarbeitung usw. Seine Anwendung bei der Bilderzeugung wird dazu beitragen, die Effizienz der Bilderstellung zu verbessern und könnte es der KI ermöglichen, mehrere Bilder basierend auf Bedingungen und Menschen zu generieren und zu filtern Die Änderung der Ergebnisse wird in Zukunft ein neues Arbeitsmodell im Bereich der 2D-Malerei sein, das die Produktionseffizienz digitaler 2D-Assets erheblich verbessern kann.

Mit der Entwicklung der KI-Technologie wird es jedoch immer einige Streitigkeiten geben, und der Bereich der Bilderzeugung bildet da keine Ausnahme. Zusätzlich zu den Problemen der KI-Technologie selbst, wie etwa der Tatsache, dass die erzeugte Bildstruktur falsch und unangemessen ist, Es gibt auch einige rechtliche Streitigkeiten, beispielsweise die Urheberrechtsfragen der KI-Werke selbst. Technische Probleme können durch die Entwicklung der Technologie selbst gelöst werden. Wir haben Grund zu der Annahme, dass die Bilderzeugung mit der Entwicklung der KI-Technologie irgendwann ein sehr hohes Niveau erreichen wird, wodurch die meisten Low-End-Malereiarbeiten überflüssig werden Befreien Sie die menschliche Produktivität erheblich. Urheberrechtsfragen erfordern möglicherweise immer noch, dass Regierungsbehörden der Entwicklung verwandter Branchen genügend Aufmerksamkeit schenken und relevante Richtlinien und Systeme verbessern. Dies erfordert, dass wir mehr über neu entstehende Bereiche nachdenken, damit die KI-Technologie uns besser dienen kann.

Referenzen

https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2

https://www.php.cn/ Link /6872937617af85db5a39a5243e858d1f

https://www.php.cn/link/831da40e5907987235ebe5616446e083

Das obige ist der detaillierte Inhalt vonBilderzeugung basierend auf dem Diffusionsmodell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Die fünf Hauptfunktionen von ChatGPT können Ihnen dabei helfen, die Codequalität zu verbessernNächster Artikel：Die fünf Hauptfunktionen von ChatGPT können Ihnen dabei helfen, die Codequalität zu verbessern

In Verbindung stehende Artikel

Mehr sehen