Heim > Artikel > Technologie-Peripheriegeräte > Kann bei extrem starkem Licht kein Bild erzeugt werden? Das WeChat Vision Team löst effektiv das Singularitätsproblem des Diffusionsmodells
Diffusionsmodelle spielen eine Rolle bei der Farbdarstellung bei der Bilderzeugung und läuten eine neue Ära generativer Modelle ein. Große Modelle wie Stable Diffusion, DALLE, Imagen und SORA sind entstanden und haben den Anwendungshintergrund generativer KI weiter bereichert. Aktuelle Diffusionsmodelle sind jedoch theoretisch nicht perfekt und nur wenige Studien haben sich mit dem Problem undefinierter Singularitäten an den Endpunkten des Probenahmezeitraums befasst. Darüber hinaus wurden der durchschnittliche Grauwert, der durch das Singularitätsproblem in der Anwendung verursacht wird, und andere Probleme, die sich auf die Qualität des generierten Bildes auswirken, nicht gelöst.
Um dieses Problem zu lösen, arbeitete das WeChat Vision-Team mit der Sun Yat-sen-Universität zusammen, um gemeinsam das Singularitätsproblem im Diffusionsmodell zu untersuchen, und schlug eine Plug-and-Play-Methode vor, die das Stichprobenproblem zunächst effektiv löste Moment. Diese Methode löst erfolgreich das Problem der durchschnittlichen Graustufen und verbessert die Generierungsfähigkeit vorhandener Diffusionsmodelle erheblich. Dieses Forschungsergebnis wurde auf der CVPR 2024-Konferenz veröffentlicht.
Diffusionsmodelle haben bei multimodalen Inhaltsgenerierungsaufgaben, einschließlich Bild-, Audio-, Text- und Videogenerierung, erhebliche Erfolge erzielt. Die erfolgreiche Modellierung dieser Modelle beruht größtenteils auf der Annahme, dass der umgekehrte Prozess des Diffusionsprozesses auch den Gaußschen Eigenschaften entspricht. Diese Hypothese wurde jedoch nicht vollständig bewiesen. Insbesondere am Endpunkt, also bei t=0 oder t=1, tritt das Singularitätsproblem auf, das die vorhandenen Methoden zur Untersuchung der Stichprobe an der Singularität einschränkt.
Darüber hinaus wirkt sich das Singularitätsproblem auch auf die Generierungsfähigkeit des Diffusionsmodells aus, was dazu führt, dass das Modell das durchschnittliche Graustufenproblem aufweist, das heißt, es ist schwierig, Bilder mit starker oder schwacher Helligkeit zu erzeugen, wie gezeigt in der Abbildung unten. Dies schränkt auch den Anwendungsbereich aktueller Diffusionsmodelle in gewissem Maße ein.
Um das Singularitätsproblem des Diffusionsmodells am Zeitendpunkt zu lösen, arbeitete das WeChat Vision-Team mit der Sun Yat-sen-Universität zusammen, um eingehende Forschung sowohl unter theoretischen als auch unter praktischen Gesichtspunkten durchzuführen. Zunächst schlug das Team eine Fehlerobergrenze vor, die eine ungefähre Gaußsche Verteilung des Umkehrprozesses im Singularitätsmoment enthält, was eine theoretische Grundlage für nachfolgende Forschungen lieferte. Basierend auf dieser theoretischen Garantie untersuchte das Team die Probenahme an singulären Punkten und kam zu zwei wichtigen Schlussfolgerungen: 1) Der singuläre Punkt bei t=1 kann durch Finden des Grenzwerts in einen abnehmbaren singulären Punkt umgewandelt werden, 2) die Singularität bei t=0 ist eine inhärente Eigenschaft des Diffusionsmodells und muss nicht vermieden werden. Basierend auf diesen Schlussfolgerungen schlug das Team eine Plug-and-Play-Methode vor: SingDiffusion, um das Problem der Abtastung des Diffusionsmodells im ersten Moment zu lösen.
Durch eine Vielzahl von Experimenten wurde bewiesen, dass das SingDiffusion-Modul mit nur einem Training nahtlos auf bestehende Diffusionsmodelle angewendet werden kann, wodurch das Problem des durchschnittlichen Grauwerts erheblich gelöst wird. Ohne den Einsatz klassifikatorloser Führungstechnologie kann SingDiffusion die Generierungsqualität der aktuellen Methode erheblich verbessern. Insbesondere nach der Anwendung auf Stable Diffusion 1.5 (SD-1.5) wird die Qualität der generierten Bilder um 33 % verbessert.
Papieradresse: https://arxiv.org/pdf/2403.08381.pdf
Projektadresse: https://pangzecheung.github.io/SingDiffusion/
Papiertitel: Tackling die Singularitäten an den Endpunkten von Zeitintervallen in Diffusionsmodellen Der gesamte Prozess erfüllt die Gaußschen Eigenschaften. Definieren Sie zunächst
wobei δ die Dirac-Funktion darstellt. Gemäß der Definition des kontinuierlichen Zeitdiffusionsmodells in [1] kann der Vorwärtsprozess für zwei beliebige Momente 0≤s,t≤1 ausgedrückt werden als:
wobei , , , sich im Laufe der Zeit monoton von 1 auf 0 ändern. Unter Berücksichtigung der soeben definierten Trainingsmusterverteilung kann die Einzelmoment-Grenzwahrscheinlichkeitsdichte von wie folgt ausgedrückt werden:
Daraus kann die bedingte Verteilung des Umkehrprozesses mithilfe der Bayes'schen Formel berechnet werden:
Die erhaltene Verteilung ist jedoch eine gemischte Gaußsche Verteilung, die sich nur schwer in ein Netzwerk einfügen lässt. Daher gehen gängige Diffusionsmodelle normalerweise davon aus, dass diese Verteilung durch eine einzelne Gaußsche Verteilung angepasst werden kann:
wobei Um diese Annahme zu überprüfen, schätzte diese Studie die Anpassung in Proposition 1 Fehler.
Die Studie ergab jedoch, dass sich bei t = 1 ebenfalls 1 nähert, wenn s sich 1 nähert, und der Fehler kann nicht ignoriert werden. Daher beweist Proposition 1 nicht die inverse Gaußsche Eigenschaft bei t=1. Um dieses Problem zu lösen, liefert diese Forschung einen neuen Vorschlag:
Gemäß Satz 2 nähert sich 0, wenn t=1, wenn s sich 1 nähert. Somit beweist diese Studie, dass der gesamte inverse Prozess einschließlich des Singularitätsmoments den Gaußschen Eigenschaften entspricht.
Mit der Garantie der Gaußschen Eigenschaften des inversen Prozesses führte diese Studie Untersuchungen zur Abtastung im Singularitätsmoment basierend auf der inversen Abtastformel durch.
Betrachten Sie zunächst das Singularitätsproblem zum Zeitpunkt t=1. Wenn t=1, =0, wird der Nenner der folgenden Stichprobenformel durch 0 geteilt:
Das Forschungsteam fand heraus, dass dieser singuläre Punkt durch Berechnung des Grenzwerts in einen trennbaren singulären Punkt umgewandelt werden kann:
Diese Grenze kann jedoch beim Testen nicht berechnet werden. Zu diesem Zweck schlägt diese Studie vor, dass wir zum Zeitpunkt t=1 anpassen und „x-Vorhersage“ verwenden können, um das Stichprobenproblem am anfänglichen singulären Punkt zu lösen.
Betrachten Sie dann den Zeitpunkt t = 0. Der umgekehrte Prozess der Gaußschen Verteilungsanpassung wird zu einer Gaußschen Verteilung mit einer Varianz von 0, d. Solche Singularitäten führen dazu, dass der Stichprobenprozess zu den richtigen Daten konvergiert
. Daher ist die Singularität bei t=0 eine gute Eigenschaft des Diffusionsmodells und muss nicht vermieden werden.
Darüber hinaus untersucht die Studie im Anhang auch das Singularitätsproblem in DDIM, SDE, ODE. Plug-and-Play-SingDiffusion-Modul
Die Abtastung an einzelnen Punkten wirkt sich auf die Qualität des vom Diffusionsmodell erzeugten Bildes aus. Wenn beispielsweise Hinweise mit hoher oder niedriger Helligkeit eingegeben werden, können bestehende Methoden oft nur Bilder mit durchschnittlichen Graustufen erzeugen, was als durchschnittliches Graustufenproblem bezeichnet wird. Dieses Problem ergibt sich aus der Tatsache, dass bestehende Methoden die Abtastung am singulären Punkt bei t=0 ignorieren und stattdessen die
Standard-Gauß-VerteilungUnter einer solchen Lücke entspricht die bestehende Methode gemäß Satz 3 der Erzeugung eines Bildes mit einem Mittelwert von 0 bei t = 1, also einem durchschnittlichen Graustufenbild. Daher ist es mit bestehenden Methoden schwierig, Bilder mit extrem starker oder schwacher Helligkeit zu erzeugen. Um dieses Problem zu lösen, schlägt diese Studie eine Plug-and-Play-SingDiffusion-Methode vor, um diese Lücke zu schließen, indem die Konvertierung zwischen einer Standard-Gauß-Verteilung und der tatsächlichen Datenverteilung angepasst wird. Der Algorithmus von SingDiffuion ist in der folgenden Abbildung dargestellt:
Gemäß der Schlussfolgerung des vorherigen Abschnitts verwendete diese Studie die „x-Prediction“-Methode zum Zeitpunkt t=1, um die Stichprobe zu lösen Problem am singulären Punkt. Für Bild-Text-Datenpaare
trainiert diese Methode ein Unet
so, dass es passt
. Die Verlustfunktion wird ausgedrückt als: Nachdem das Modell konvergiert ist, können Sie der folgenden DDIM-Abtastformel folgen und das neu erhaltene Modul Sampling verwenden. Die Sampling-Formel von
DDIM stellt sicher, dass das generierte der Datenverteilung zum 1-ε-Moment entspricht, und löst so das durchschnittliche Graustufenproblem. Nach diesem Schritt kann das vorab trainierte Modell verwendet werden, um nachfolgende Stichprobenschritte durchzuführen, bis generiert wird. Es ist erwähnenswert, dass SingDiffusion auf die meisten vorhandenen Diffusionsmodelle angewendet werden kann, da diese Methode nur am ersten Schritt der Probenahme beteiligt ist und nichts mit dem nachfolgenden Probenahmeprozess zu tun hat. Um Datenüberlaufprobleme zu vermeiden, die dadurch verursacht werden, dass kein Klassifikator-Führungsvorgang erfolgt, verwendet diese Methode außerdem die folgende Normalisierungsoperation: Ausgabe unter , pos stellt die Ausgabe unter positiven Eingabeaufforderungen dar und ω stellt die Führungsintensität dar.
Experimente
Zunächst bestätigte diese Studie die Fähigkeit von SingDiffusion, das durchschnittliche Graustufenproblem auf drei Modellen zu lösen: SD-1.5, SD-2.0-Basis und SD-2.0. In dieser Studie wurden vier extreme Eingabeaufforderungen, darunter „reinweißer/schwarzer Hintergrund“ und „monochromes Strichzeichnungslogo auf weißem/schwarzem Hintergrund“, als Bedingungen für die Generierung ausgewählt und der durchschnittliche Graustufenwert des generierten Bildes berechnet, wie in der folgenden Tabelle gezeigt Angezeigt:
Wie aus der Tabelle ersichtlich ist, kann diese Untersuchung das Problem des durchschnittlichen Grauwerts erheblich lösen und Bilder erzeugen, die der Helligkeit der Eingabetextbeschreibung entsprechen. Darüber hinaus wurden in der Studie auch die Generierungsergebnisse unter diesen vier Eingabeaufforderungen visualisiert, wie in der folgenden Abbildung dargestellt:
Wie aus der Abbildung ersichtlich ist, kann das vorhandene Diffusionsmodell nach dem Hinzufügen dieser Methode teilweise generiert werden Schwarz- oder Weißbilder.
Um die durch diese Methode erzielte Verbesserung der Bildqualität weiter zu untersuchen, wählte die Studie 30.000 Beschreibungen zum Testen im COCO-Datensatz aus. Zunächst demonstriert diese Studie die generative Fähigkeit des Modells selbst, ohne eine klassifikatorfreie Anleitung zu verwenden, wie in der folgenden Tabelle gezeigt:
Wie aus der Tabelle ersichtlich ist, kann die vorgeschlagene Methode die erheblich reduzieren Kosten für die Generierung von FID und Verbesserung der CLIP-Indikatoren. Es ist erwähnenswert, dass die Methode in diesem Artikel im SD-1.5-Modell den FID-Index im Vergleich zum Originalmodell um 33 % reduziert.
Um außerdem die Generierungsfähigkeit der vorgeschlagenen Methode ohne Klassifikatorführung zu überprüfen, zeigt die Studie in der folgenden Abbildung auch, dass unter verschiedenen Anleitungsgrößen ω∈[1,5,2,3,4,5,6,7 ,8] Pareto-Kurve von CLIP vs. FID:
Wie aus der Abbildung ersichtlich ist, kann die vorgeschlagene Methode auf derselben CLIP-Ebene niedrigere FID-Werte erzielen und ein realistischeres Bild erzeugen.
Darüber hinaus demonstriert diese Studie auch die Generalisierungsfähigkeit der vorgeschlagenen Methode unter verschiedenen vorab trainierten CIVITAI-Modellen, wie in der folgenden Abbildung dargestellt:
Es ist ersichtlich, dass die in dieser Studie vorgeschlagene Methode nur ein Training erfordert und problemlos auf vorhandene Diffusionsmodelle angewendet werden kann, um das durchschnittliche Graustufenproblem zu lösen.
Schließlich kann die in dieser Forschung vorgeschlagene Methode auch nahtlos auf das vorab trainierte ControlNet-Modell angewendet werden, wie in der folgenden Abbildung dargestellt:
Wie aus den Ergebnissen ersichtlich ist, kann diese Methode Lösen Sie effektiv das durchschnittliche Graustufenproblem von ControlNet.
Das obige ist der detaillierte Inhalt vonKann bei extrem starkem Licht kein Bild erzeugt werden? Das WeChat Vision Team löst effektiv das Singularitätsproblem des Diffusionsmodells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!