Maison >Périphériques technologiques >IA >Soft Diffusion : le nouveau framework de Google planifie, apprend et échantillonne correctement à partir d'un processus de diffusion universel

Soft Diffusion : le nouveau framework de Google planifie, apprend et échantillonne correctement à partir d'un processus de diffusion universel

王林avant: 2023-04-30 13:22:061462parcourir

Nous savons que les modèles basés sur les scores et les modèles probabilistes de diffusion avec débruitage (DDPM) sont deux types puissants de modèles génératifs qui génèrent des échantillons en inversant le processus de diffusion. Ces deux types de modèles ont été unifiés en un seul cadre dans l'article « Modélisation générative basée sur les scores à travers des équations différentielles stochastiques » de Yang Song et d'autres chercheurs, et sont largement connus sous le nom de modèles de diffusion.

Actuellement, le modèle de diffusion a connu un grand succès dans une série d'applications comprenant la génération d'images, d'audio, de vidéo et la résolution de problèmes inverses. Dans l'article « Elucidating the design space of diffusionbased generative models », des chercheurs tels que Tero Karras ont analysé l'espace de conception du modèle de diffusion et identifié trois étapes, à savoir i) la sélection de l'ordonnancement du niveau de bruit, ii) la sélection des paramètres du réseau. isation (chaque paramétrage génère une fonction de perte différente), iii) concevoir l'algorithme d'échantillonnage.

Récemment, dans un article arXiv « Soft Diffusion : Score Matching for General Corruptions » mené conjointement par Google Research et UT-Austin, plusieurs chercheurs estiment que le modèle de diffusion comporte encore une étape importante : la corruption. D'une manière générale, la corruption est un processus d'ajout de bruit de différentes amplitudes et, pour DDMP, nécessite également une mise à l'échelle. Bien qu'il y ait eu des tentatives pour utiliser différentes distributions pour la diffusion, il manque encore un cadre général. Par conséquent, les chercheurs ont proposé un cadre de conception de modèles de diffusion pour un processus de dommages plus général.

Plus précisément, ils ont proposé un nouvel objectif d'entraînement appelé Soft Score Matching et une nouvelle méthode d'échantillonnage Momentum Sampler. Les résultats théoriques montrent que pour les processus de dommages qui satisfont aux conditions de régularité, Soft Score MatchIng est capable d'apprendre leurs scores (c'est-à-dire les gradients de vraisemblance) que la diffusion doit transformer n'importe quelle image en n'importe quelle image avec une vraisemblance non nulle.

Dans la partie expérimentale, les chercheurs ont formé le modèle sur CelebA et CIFAR-10. Le modèle formé sur CelebA a atteint le score SOTA FID du modèle de diffusion linéaire - 1,85. Dans le même temps, le modèle formé par les chercheurs est nettement plus rapide que le modèle formé à l’aide de la diffusion de débruitage gaussienne originale.