Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ICLR 2024 Spotlight |. NoiseDiffusion: Korrigiert das Rauschen des Diffusionsmodells und verbessert die Interpolationsbildqualität

ICLR 2024 Spotlight |. NoiseDiffusion: Korrigiert das Rauschen des Diffusionsmodells und verbessert die Interpolationsbildqualität

PHPz
PHPznach vorne
2024-05-06 14:01:241005Durchsuche

„Autor“ | Videoerzeugung. Der Kern dieser Techniken liegt in der Anwendung von Diffusionsmodellen. Das Diffusionsmodell wandelt das Bild zunächst schrittweise in Gaußsches Rauschen um, indem es einen Vorwärtsprozess definiert, der kontinuierlich Rauschen hinzufügt, und entrauscht dann das Gaußsche Rauschen schrittweise durch einen umgekehrten Prozess und wandelt es in ein klares Bild um, um echte Proben zu erhalten. Das gewöhnliche Diffusionsdifferenzialmodell wird zum Interpolieren der Werte der generierten Bilder verwendet, was ein großes Anwendungspotenzial bei der Generierung von Videos und einigen Werbekreativen bietet. Allerdings ist uns aufgefallen, dass bei der Anwendung dieser Methode auf natürliche Bilder die interpolierten Bildeffekte oft unbefriedigend sind.

Im Allgemeinen tastet das Diffusionsmodell das Gaußsche Rauschen ab und entrauscht es dann schrittweise, um qualitativ hochwertige Bilder zu erzeugen. Die geringe Qualität des interpolierten Bildes bedeutet, dass seine zugrunde liegenden Variablen nicht mehr der erwarteten Gaußschen Verteilung folgen. Um die Qualität des interpolierten Bildes zu verbessern, müssen wir sicherstellen, dass die zugrunde liegenden Variablen genauer aus einer Gaußschen Verteilung abgetastet werden. Durch direktes Skalieren und Versetzen der latenten Variablen wird das generierte Bild erheblich beschädigt. Um die Informationen des Originalbilds zu erhalten, dürfen wir die latenten Variablen nicht zu stark ändern. Daher wird es zu einem schwierigen Problem, die Qualität interpolierter Bilder zu verbessern, ohne die zugrunde liegenden Variablen so weit wie möglich zu zerstören. Wir ändern zunächst den Rauschpegel der latenten Variablen, um zu analysieren, welche Art von latenten Variablen durch das Diffusionsmodell in qualitativ hochwertige Bilder wiederhergestellt werden können, und kombinieren die SDEdit-Methode, um Gaußsches Rauschen einzuführen und die Qualität der interpolierten Bilder zu verbessern. Die Einführung des Gaußschen Rauschens wird zusätzliche Informationen bringen. Darüber hinaus analysieren wir mögliche Orthogonalität in hochdimensionalen Räumen, was die Grundlage für unseren Ansatz bildet. Wir kombinieren die Methode der sphärischen linearen Interpolation und die Methode der direkten Einführung von Rauschen, um eine neue Interpolationsmethode vorzuschlagen: Beschränken Sie die potenziellen Extremwerte, kombinieren Sie sie mit winzigem Gaußschen Rauschen, um sie näher an die erwartete Verteilung zu bringen, und führen Sie das Originalbild ein, um die Informationen zu erleichtern Verlustproblem. Mit dieser Interpolationsmethode können wir die Interpolationsergebnisse natürlicher Bilder erheblich verbessern und gleichzeitig die ursprünglichen Bildinformationen beibehalten.

Als nächstes werde ich unsere Forschungsergebnisse kurz mit Ihnen teilen.

Papiertitel: NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation

Papierlink:

https://www.php.cn/link/68310dc294a1c38c7ba636380151daca

.

Code-Link:

https://www.php.cn/link/fc9e5c39356354a60d33ca59499913caICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Einführung

Abbildung 1: Anwendung der sphärischen linearen Interpolationsmethode auf Gesichtsbilder

Diffusionsmodell Das am häufigsten verwendete Bild Die Methode ist sphärisch linear Interpolationsmethode [1,2]:

Wir wenden diese Methode auf natürliche Bilder an. Aus Abbildung 2 ist ersichtlich, dass bei Anwendung der sphärischen linearen Interpolationsmethode auf natürliche Bilder der Interpolationseffekt erheblich abnimmt. ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 2: Vergleich der Interpolationseffekte zwischen natürlichen Bildern und generierten Bildern

AnalyseICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 3: Die Wirkung der Gaußschen Rauschunterdrückung bei unterschiedlichen Rauschpegeln

Wir untersuchen zunächst die Auswirkung von Rauschpegeln auf generierte Bilder. Es ist zu beobachten, dass nur dann ein Bild mit höherer Qualität erhalten wird, wenn der Grad des Gaußschen Rauschens mit dem Grad der Rauschunterdrückung übereinstimmt (mittleres Bild). Wenn der Rauschpegel niedriger als der Rauschunterdrückungspegel (rechtes Bild) oder höher als der Rauschunterdrückungspegel (linkes Bild) ist, wird die Qualität des erzeugten Bildes verringert. Wir verwenden Satz 1, um dieses Phänomen zu erklären:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Theorem 1 erklärt die Verteilungseigenschaften des Standard-Gaußschen Rauschens im hochdimensionalen Raum: Sie konzentrieren sich hauptsächlich auf eine Hypersphäre. Im Inneren dieser Hypersphäre ist die Wahrscheinlichkeitsdichte der Punkte zwar relativ hoch, ihr Gesamtbeitrag ist jedoch aufgrund des geringen Volumens, das sie einnimmt, nicht signifikant, während im Außenbereich der Hypersphäre das Punktevolumen aufgrund der größeren Wahrscheinlichkeit größer ist Die Wahrscheinlichkeitsdichte nimmt mit der Entfernung schnell ab, sodass der Beitrag von Außenpunkten ebenfalls vernachlässigbar ist. Daher konzentrieren sich beim Training eines Diffusionsmodells die von uns hauptsächlich beobachteten latenten Variablen auf die Hypersphäre, und aus diesen Gründen ist es schwierig, die latenten Variablen innerhalb und außerhalb der Hypersphäre effektiv zu entstören.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 4: Gründe, warum die Interpolation natürlicher Bilder fehlschlägt

Natürliche Bilder weisen oft komplexe Merkmale auf, die Diffusionsmodelle während des Trainings nicht gesehen haben, was dazu führt, dass Diffusionsmodelle beim Versuch, natürliche Bilder in den Standard-Schwierigkeitsgrad des Gaußschen Rauschens umzuwandeln, auf Probleme stoßen. Insbesondere können die latenten Variablen dieser Bilder Gaußsches Rauschen über oder unter dem Bereich der Rauschunterdrückungsfähigkeiten des Modells enthalten. Die Fähigkeit des Diffusionsmodells beschränkt sich jedoch hauptsächlich auf die Wiederherstellung des Gaußschen Rauschens auf der in Satz 1 beschriebenen Hypersphäre. Bei Geräuschen außerhalb dieses Bereichs kann das Modell häufig nicht effektiv damit umgehen. Daher werden bei der Bildinterpolation häufig interpolierte Bilder von geringerer Qualität erzeugt.

Einführung von Rauschen

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 5: Direkte Einführung von Rauschinterpolation

Um die Qualität des Bildes zu verbessern und die latenten Variablen näher an die Hypersphäre zu bringen, haben wir eine mit SDEdit[3] kombinierte Methode übernommen. Insbesondere fügen wir dem Bild direkt Standard-Gaußsches Rauschen hinzu, führen dann eine Interpolation durch und führen schließlich eine Entrauschung durch. Aus Abbildung 5 ist deutlich zu erkennen, dass diese Methode die Qualität interpolierter Bilder deutlich verbessert. Es ist jedoch zu beachten, dass dieser Ansatz auch einige zusätzliche Informationen einführt, wie in der Abbildung dargestellt.

Methode

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 6: Gesamtdesign von NoiseDiffusion

Um die Bildqualität zu verbessern und den Informationsverlust so weit wie möglich zu reduzieren, kombinieren wir auf innovative Weise die sphärische lineare Interpolationsmethode mit der Interpolationsmethode, die Rauschen direkt einführt, und Schlagen Sie eine neue NoiseDiffusion-Methode vor. Wie in Abbildung 6 dargestellt, berücksichtigt das Gesamtdesign von NoiseDiffusion nicht nur die Informationserhaltung während des Interpolationsprozesses, sondern verbessert auch die Bildqualität durch die Einführung von Rauschen, wodurch ein effektives Gleichgewicht zwischen beiden erreicht wird. Als nächstes werden wir die Designideen von NoiseDiffusion näher erläutern.

Design 1:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 7: Einschränkung der Extremwerte latenter Variablen

Laut Statistik können Rauschkomponenten ab einem bestimmten Bereich als Ausreißer angesehen werden. In Kombination mit Abbildung 3 haben wir festgestellt, dass Gaußsches Rauschen, das über dem Rauschunterdrückungspegel liegt, offensichtliches Rauschen erzeugt, das den abnormalen Farbflecken in den Interpolationsergebnissen natürlicher Bilder sehr ähnlich ist. Daher haben wir Grund zu der Annahme, dass es durch verursacht wird Extremwerte der latenten Variablen. Die Produktion dieser abnormalen Farbflecken. Basierend auf diesen Analysen legen wir Beschränkungen für die Extremwerte der latenten Variablen fest, um die Auswirkungen dieser abnormalen Geräusche zu kontrollieren. Wie aus Abbildung 7 ersichtlich ist, haben wir durch die Einschränkung der Extremwerte der latenten Variablen die Bildqualität erheblich verbessert.

Design 2:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 8: Einführung von Originalbildinformationen

Beim Auferlegen von Einschränkungen für latente Variablen können wir versehentlich einige normale Komponenten beeinflussen, was zu einem Informationsverlust führt. Um diesen möglichen Informationsverlust zu kompensieren, führen wir ergänzend die Originalbildinformationen ein. Wie in Abbildung 8 dargestellt, wurde die Qualität des interpolierten Bildes nach Einführung der Originalbildinformationen erheblich verbessert. Dies zeigt, dass die ursprünglichen Bildinformationen eine wichtige Rolle beim Ausgleich von Informationsverlusten spielen. Durch die Kombination der Einschränkungen latenter Variablen und der Ergänzung der Originalbildinformationen können wir den Informationsverlust reduzieren und gleichzeitig die Bildqualität sicherstellen und einen genaueren und natürlicheren Interpolationseffekt erzielen.

Design 3:

Die sphärische lineare Interpolation ist eine Interpolationsmethode, die auf der Berechnung des Winkels zwischen zwei latenten Variablen beruht. In praktischen Anwendungen beobachten wir jedoch, dass diese latenten Variablen häufig einen nahezu orthogonalen Zustand aufweisen. Um dieses Phänomen zu erklären, führen wir Satz 2 als theoretische Unterstützung ein.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 9: Einführung von Gaußschem Rauschen unterschiedlicher Größe

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 10: Kombiniert mit Design 1, um die Menge des eingeführten Gaußschen Rauschens zu reduzieren

Wie aus Abbildung 9 ersichtlich ist, erhöhen wir schrittweise die Menge des eingeführten Gaußschen Rauschens Die Qualität des Interpolationsbildes wurde erheblich verbessert. Allerdings ist diese Verbesserung nicht ohne Kosten, da mit zunehmendem Rauschen auch die Einführung zusätzlicher Informationen zunimmt. Um im eigentlichen Interpolationsprozess die Einführung zusätzlicher Informationen zu minimieren und gleichzeitig die Qualitätsanforderungen zu erfüllen, haben wir die zuvor genannten Strategien kombiniert, um die Menge des einzuführenden Gaußschen Rauschens effektiv zu reduzieren (Abbildung 10) und dadurch die Informationen über die besser zu behalten Original Bild.

Experiment

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 11: Vergleich mit der sphärischen linearen Interpolationsmethode

Wir haben die Ergebnisse der vorgeschlagenen Methode mit der sphärischen linearen Interpolationsmethode verglichen (wie in Abbildung 11 dargestellt). Den Interpolationsergebnissen nach zu urteilen, verbessert unsere Methode die Qualität der interpolierten Bilder deutlich, während nahezu keine Informationen verloren gehen. Dies zeigt voll und ganz die überlegene Leistung unserer Methode bei der Wahrung der Informationsintegrität und der Verbesserung der Bildqualität.

Wir haben auch Experimente zur stabilen Diffusion durchgeführt [4]. Aufgrund des stark unstrukturierten latenten Raums der stabilen Diffusion ist es schwierig, eine reibungslose Interpolation zu erhalten (Abbildung 12). Daher betrachten wir die Interpolation () in einem kleineren Zeitschritt, wodurch mehr Merkmale des Originalbilds erhalten bleiben und das Interpolationsergebnis glatter wird, es jedoch zu einer Verringerung der Bildqualität führt (Abbildung 13). Um dieses Problem zu lösen, haben wir unsere Methode NoiseDiffusion angewendet, um die latenten Variablen zu korrigieren (Abbildung 14). Aus den experimentellen Ergebnissen geht hervor, dass unsere Methode die Bildqualität deutlich verbessert und gleichzeitig weniger Informationen verändert.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 12: Verwendung der sphärischen linearen Interpolation, wenn

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 13: Verwendung der sphärischen linearen Interpolation, wenn

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

Abbildung 14: Verwendung der NoiseDiffusion-Interpolation, wenn.

Referenz

[1 ] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon und Ben Poole. In ICLR, 2021.

[2] Jiaming Song, Chenlin Meng und Stefano Ermon Diffusion impliziter Modelle. In ICLR, 2021.

[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu und Stefano Ermon.

Sdedit: Geführte Bildsynthese und -bearbeitung mit stochastischem Differential Gleichungen. In ICLR, 2022.

[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser und Björn Ommer. In CVPR, 2022.

[5] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Die Trustworthy Machine Learning and Reasoning Research Group (TMLR Group) der Hong Kong Baptist University besteht aus einer Reihe junger Professoren, Postdoktoranden, Doktoranden, Gastdoktoranden und Forschungsassistenten. Die Forschungsgruppe ist dem Fachbereich Informatik angegliedert. Fakultät für Naturwissenschaften. Die Forschungsgruppe ist spezialisiert auf vertrauenswürdiges Repräsentationslernen, vertrauenswürdiges Lernen basierend auf kausalem Denken, vertrauenswürdige Basismodelle und andere verwandte Algorithmen, Theorie und Systemdesign sowie Anwendungen in den Naturwissenschaften. Die spezifischen Forschungsrichtungen und damit verbundenen Ergebnisse finden Sie auf der Seite der Gruppe Github (https://github.com/tmlr-group). Das Forschungsteam wird durch staatliche Forschungsgelder und industrielle Forschungsgelder finanziert, wie zum Beispiel das Outstanding Young Scholars Program des Hong Kong Research Grants Council, allgemeine Projekte und Jugendprojekte der National Natural Science Foundation of China sowie wissenschaftliche Forschungsgelder von Microsoft, NVIDIA, Baidu, Alibaba, Tencent und andere Unternehmen. Junge Professoren und leitende Forscher arbeiten Hand in Hand, und die GPU-Rechenressourcen sind ausreichend. Es werden viele Postdoktoranden, Doktoranden, wissenschaftliche Mitarbeiter und Forschungspraktikanten langfristig rekrutiert. Darüber hinaus begrüßt die Gruppe auch Bewerbungen von selbstfinanzierten Gastpostdoktoranden, Doktoranden und Forschungsassistenten für mindestens 3–6 Monate, und der Fernzugriff wird unterstützt. Interessierte Studierende senden bitte Ihren Lebenslauf und Ihren vorläufigen Forschungsplan an die E-Mail-Adresse (bhanml@comp.hkbu.edu.hk).

Das obige ist der detaillierte Inhalt vonICLR 2024 Spotlight |. NoiseDiffusion: Korrigiert das Rauschen des Diffusionsmodells und verbessert die Interpolationsbildqualität. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen