Heim > Artikel > Technologie-Peripheriegeräte > Bilderzeugung basierend auf dem Diffusionsmodell
Teil 01 In diesem Artikel wird vorgeschlagen, dass es bei den damaligen generativen Modellen wie VAE große Schwierigkeiten gibt, das heißt, dieser Modelltyp definiert zunächst die bedingte Verteilung und definiert dann die spätere Variation, um sie anzupassen Dies führt jedoch dazu, dass die bedingte Verteilung und die Variation posteriori gleichzeitig optimiert werden müssen. Wenn wir einen einfachen Prozess definieren können, der die Datenverteilung auf einen Standard-Gaußschen Wert abbildet, besteht die Aufgabe des „Generators“ darin, jeden kleinen Schritt des inversen Prozesses dieses Prozesses anzupassen. Dies ist die Kernidee des Diffusionsmodells. . Allerdings sorgte dieser Artikel damals noch für großes Aufsehen.
Abbildung 2 – Generationsergebnisse von DDPM
Nach DDPM schlugen Song et al. 2021 DDIM (Denoising Diffusion Implicit Model) vor, das die Sampling-Methode des Diffusionsprozesses von DDPM veränderte und den traditionellen Markov-Diffusionsprozess förderte , können kleinere Probenahmeschritte verwendet werden, um die Probengenerierung zu beschleunigen und so die Effizienz erheblich zu verbessern.
Es gibt auch einige Verbesserungen in der Folgearbeit zur Integration des Diffusionsmodells in das traditionelle Erzeugungsnetzwerk, wie z. B. die Kombination von VAE- und DM-Modellen, die Kombination von GAN+DM usw. Ich werde es nicht tun Gehen Sie hier auf Details ein.1.3 Outbreak
Im Jahr 2022 führte Google ein neues KI-System auf Basis des Diffusionsmodells ein, das Textbeschreibungen in realistische Bilder umwandeln kann.
Bild 3
Bild 4
Wie aus dem von Google bereitgestellten schematischen Diagramm ersichtlich ist, wurde das eingegeben Der Text wird zunächst codiert und dann durch ein Text-zu-Bild-Diffusionsmodell in ein 64 * 64-Kleinbild umgewandelt. Darüber hinaus wird ein hochauflösendes Diffusionsmodell verwendet, um das kleine Bild zu verarbeiten In einem weiteren iterativen Prozess verbessert, um das endgültige generierte Ergebnis zu erhalten, ist ein endgültiges Bild von 1024 * 1024. Dieser magische Vorgang ist genau das, was jeder fühlt, wenn er ihn verwendet. Sie geben einen Text ein – einen Golden Retriever-Hund, der einen rot gepunkteten Rollkragenpullover und eine blau karierte Mütze trägt, und dann generiert das Programm automatisch den obigen Text für Sie gesehen. Eine weitere beliebte Anwendung auf Phänomenebene - novalAI. Dies war ursprünglich eine Website, die sich dem KI-Schreiben widmete. Basierend auf der aktuellen Bildgeneration kombiniert sie Bilder im Internet. Mithilfe von Ressourcen haben wir trainiert Ein Bilderzeugungsmodell, das sich auf zwei Dimensionen konzentriert, und der Effekt hat begonnen, das Niveau menschlicher Maler zu erreichen.
# 🎜 🎜#图5 Zusätzlich zur herkömmlichen Eingabe von zu produzierendem Text Bilder Darüber hinaus unterstützt es auch Eingabebilder als Referenz, wodurch die KI neue Bilder basierend auf bekannten Bildern generieren kann, wodurch das Problem unkontrollierbarer Ergebnisse der KI-Generierung bis zu einem gewissen Grad gelöst wird. Was ist also der Arbeitsprozess einer so leistungsstarken KI-Technologie? Hier nehmen wir das klassischere DDPM-Modell als Beispiel, um einen kurzen Prozess zu geben: 🎜#Der Vorwärtsprozess ist ein Prozess, bei dem dem Bild Rauschen hinzugefügt wird, um das Trainingsmuster-GT zu erstellen. 2.2 Umgekehrter Diffusionsprozess Der umgekehrte Prozess ist ein Entrauschen Prozess Der Prozess von # erfüllt die Gaußsche Verteilung und immer noch eine Gaußsche Verteilung ist, kann nicht einfach abgeleitet werden, daher verwenden wir einen Parameter als # 🎜🎜#s Deep-Learning-Modell wird verwendet, um es vorherzusagen, also gibt es:
Wenn x0 bekannt ist, übergeben Sie die Bayesianische Formel ist:
#🎜🎜 # Leser, die etwas über maschinelles Lernen wissen, sollten wissen, dass alle Modelle den Zweck haben Beim Training geht es darum, die Parameter des Modells zu optimieren, um zuverlässige Mittelwerte und Varianzen zu erhalten. Wir maximieren die Log-Likelihood der Vorhersageverteilung des Modells, das heißt: #🎜🎜 ##🎜🎜 # Nach einer Reihe von Ableitungen erhielt das DDPM-Modell den endgültigen Verlustfunktionsausdruck: # 🎜🎜#
#🎜🎜 ## 🎜🎜 # #🎜🎜 #1.# ?? 🎜🎜#2. Probieren Sie ein Rauschen aus der Standard-Gauß-Verteilung Zusammenfassung 🎜🎜##🎜 🎜 #● Das Diffusionsmodell hat großes Potenzial gezeigt und erfordert im Vergleich zum VAE-Modell keine Ausrichtung der hinteren Verteilung, es besteht keine Notwendigkeit um zusätzliche Diskriminatoren wie GAN zu trainieren, und es hat Anwendungen in den Bereichen Computer Vision, Bioinformatik, Sprachverarbeitung usw. Seine Anwendung bei der Bilderzeugung wird dazu beitragen, die Effizienz der Bilderstellung zu verbessern und könnte es der KI ermöglichen, mehrere Bilder basierend auf Bedingungen und Menschen zu generieren und zu filtern Die Änderung der Ergebnisse wird in Zukunft ein neues Arbeitsmodell im Bereich der 2D-Malerei sein, das die Produktionseffizienz digitaler 2D-Assets erheblich verbessern kann. Mit der Entwicklung der KI-Technologie wird es jedoch immer einige Streitigkeiten geben, und der Bereich der Bilderzeugung bildet da keine Ausnahme. Zusätzlich zu den Problemen der KI-Technologie selbst, wie etwa der Tatsache, dass die erzeugte Bildstruktur falsch und unangemessen ist, Es gibt auch einige rechtliche Streitigkeiten, beispielsweise die Urheberrechtsfragen der KI-Werke selbst. Technische Probleme können durch die Entwicklung der Technologie selbst gelöst werden. Wir haben Grund zu der Annahme, dass die Bilderzeugung mit der Entwicklung der KI-Technologie irgendwann ein sehr hohes Niveau erreichen wird, wodurch die meisten Low-End-Malereiarbeiten überflüssig werden Befreien Sie die menschliche Produktivität erheblich. Urheberrechtsfragen erfordern möglicherweise immer noch, dass Regierungsbehörden der Entwicklung verwandter Branchen genügend Aufmerksamkeit schenken und relevante Richtlinien und Systeme verbessern. Dies erfordert, dass wir mehr über neu entstehende Bereiche nachdenken, damit die KI-Technologie uns besser dienen kann. https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2 https://www.php.cn/ Link /6872937617af85db5a39a5243e858d1f https://www.php.cn/link/831da40e5907987235ebe5616446e083 Teil 02
● 🎜 nciple Erklärung ●
Für eine gegebene anfängliche Datenverteilung x0 ~ q(x) fügen wir der Datenverteilung nach und nach Gaußsches Rauschen hinzu sind T-Zeiten und das Ergebnis jedes Schritts ist x1, x2,...,xt. Die Standardabweichung des Rauschens wird ausgedrückt als: 🎜🎜#
#🎜🎜 #Wie bereits erwähnt, handelt es sich hierbei um einen Markov-Kettenprozess. Letztendlich weisen die Daten tendenziell eine isotrope Gaußsche Verteilung auf. 2.3 Trainingsprozess
●Referenzen
Das obige ist der detaillierte Inhalt vonBilderzeugung basierend auf dem Diffusionsmodell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!