Maison >Périphériques technologiques >IA >ICLR 2024 Spotlight | NoiseDiffusion : Corrigez le bruit du modèle de diffusion et améliorez la qualité de l'image d'interpolation

ICLR 2024 Spotlight | NoiseDiffusion : Corrigez le bruit du modèle de diffusion et améliorez la qualité de l'image d'interpolation

PHPzavant: 2024-05-06 14:01:241183parcourir

Auteur | Pengfei Zheng

Unité | USTC, HKBU TMLR Group

Ces dernières années, le développement rapide de l'IA générative a injecté une forte puissance dans des domaines accrocheurs tels que la génération de texte en image et génération vidéo. Le cœur de ces techniques réside dans l’application de modèles de diffusion. Le modèle de diffusion transforme d'abord progressivement l'image en bruit gaussien en définissant un processus direct qui ajoute continuellement du bruit, puis débruite progressivement le bruit gaussien par un processus inverse et le transforme en une image claire pour obtenir de vrais échantillons. Le modèle différentiel ordinaire de diffusion est utilisé pour interpoler les valeurs des images générées, ce qui présente un grand potentiel d'application dans la génération de vidéos et de certaines créations publicitaires. Cependant, nous avons remarqué que lorsque cette méthode est appliquée à des images naturelles, les effets d’image interpolés sont souvent peu satisfaisants.

En général, le modèle de diffusion échantillonne le bruit gaussien puis le débruite progressivement pour générer des images de haute qualité. La faible qualité de l'image interpolée signifie que ses variables sous-jacentes ne suivent plus la distribution gaussienne attendue. Pour améliorer la qualité de l'image interpolée, nous devons nous assurer que les variables sous-jacentes sont échantillonnées de plus près à partir d'une distribution gaussienne. La mise à l'échelle et le décalage directs des variables latentes endommageront gravement l'image générée, et afin de préserver les informations de l'image originale, nous ne pouvons pas trop modifier les variables latentes. Il devient donc difficile d’améliorer la qualité des images interpolées sans détruire autant que possible les variables sous-jacentes.

Nous modifions d'abord le niveau de bruit des variables latentes pour analyser quel type de variables latentes peuvent être restaurées en images de haute qualité par le modèle de diffusion, et combinons la méthode SDEdit pour introduire du bruit gaussien afin d'améliorer la qualité des images interpolées. L'introduction du bruit gaussien apportera des informations supplémentaires. De plus, nous analysons l'orthogonalité potentielle dans les espaces de grande dimension, ce qui constitue la base de notre approche. Nous combinons la méthode d'interpolation linéaire sphérique et la méthode d'introduction directe du bruit pour proposer une nouvelle méthode d'interpolation : contraindre les valeurs extrêmes potentielles, la combiner avec un minuscule bruit gaussien pour la rapprocher de la distribution attendue, et introduire l'image originale pour atténuer les informations. problème de perte. Grâce à cette méthode d'interpolation, nous pouvons améliorer considérablement les résultats d'interpolation d'images naturelles tout en conservant les informations d'origine de l'image.

Ensuite, je partagerai brièvement avec vous les résultats de nos recherches.