Maison  >  Article  >  Périphériques technologiques  >  L'équipe de He Kaiming et Xie Saining a suivi avec succès l'exploration du modèle de diffusion de déconstruction et a finalement créé l'auto-encodeur de débruitage très apprécié.

L'équipe de He Kaiming et Xie Saining a suivi avec succès l'exploration du modèle de diffusion de déconstruction et a finalement créé l'auto-encodeur de débruitage très apprécié.

PHPz
PHPzavant
2024-01-29 14:15:051045parcourir

Le modèle de diffusion de bruit (DDM) est une méthode actuellement largement utilisée dans la génération d'images. Récemment, une équipe de quatre personnes composée de Xinlei Chen, Zhuang Liu, Xie Saining et He Kaiming a mené une étude de déconstruction sur le DDM. En supprimant progressivement ses composants, ils ont constaté que la capacité de génération du DDM diminuait progressivement, mais que la capacité d'apprentissage des représentations maintenait toujours un certain niveau. Cela montre que certains composants du DDM peuvent ne pas être importants pour l'apprentissage des représentations.

Pour les modèles génératifs actuels dans des domaines tels que la vision par ordinateur, le débruitage est considéré comme une méthode essentielle. Ce type de méthode est souvent appelé modèle de diffusion de débruitage (DDM). En apprenant un auto-encodeur de débruitage (DAE), il peut éliminer efficacement plusieurs niveaux de bruit tout au long du processus de diffusion.

Ces méthodes permettent d'obtenir une excellente qualité de génération d'images et sont particulièrement adaptées à la génération d'images réelles simulées haute résolution, semblables à des photos. Les performances de ces modèles génératifs sont si bonnes qu’ils peuvent presque être considérés comme dotés de fortes capacités de reconnaissance et de compréhension du contenu visuel généré.

Bien que DAE soit au cœur des modèles génératifs actuels, le premier article « Extraire et composer des fonctionnalités robustes avec des auto-encodeurs à débruitage » consiste à apprendre la représentation des données via des méthodes supervisées. Cet article propose une méthode capable d’extraire et de combiner des fonctionnalités robustes. Il vise à améliorer les performances des tâches d'apprentissage supervisé en apprenant des représentations utiles des données d'entrée via des auto-encodeurs de débruitage. L'application réussie de cette approche démontre l'importance des DAE dans les modèles génératifs.

Dans la communauté actuelle d'apprentissage des représentations, les variantes basées sur le « bruit de masque » sont considérées comme les DAE les plus efficaces, comme la prédiction du texte manquant dans une langue (comme BERT) ou des tuiles manquantes dans une image.

Bien que les variantes basées sur des masques spécifient explicitement ce qui est inconnu et ce qui est connu, elles sont très différentes de la tâche consistant à supprimer le bruit additif. Dans la tâche d’isolation du bruit additif, aucune information explicite n’est disponible pour guider le traitement. Cependant, les DDM actuels pour les tâches génératives sont principalement basés sur du bruit additif, ce qui signifie que le contenu inconnu et connu peut ne pas être explicitement étiqueté lors de l'apprentissage des représentations. Par conséquent, cette différence peut amener les variantes basées sur un masque à présenter des effets différents dans le traitement du bruit additif.

Récemment, de plus en plus de recherches ont été menées sur les capacités d'apprentissage des représentations du DDM (Deep Denoising Model). Ces études adoptent directement des modèles DDM pré-entraînés (utilisés à l'origine pour les tâches de génération) et évaluent leur qualité de représentation dans les tâches de reconnaissance. L’application de ces modèles orientés génératifs a conduit à des résultats passionnants.

Cependant, ces études pionnières ont également révélé certains problèmes non résolus : ces modèles existants sont conçus pour des tâches de génération, pas pour des tâches de reconnaissance, nous ne pouvons donc pas déterminer si leurs capacités de représentation sont pilotées par le débruitage ou la diffusion obtenue à partir du processus de conduite.

Cette étude de Xinlei Chen et al. fait un grand pas dans cette direction de recherche.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

  • Titre de l'article : Déconstruire les modèles de diffusion de bruitage pour l'apprentissage auto-supervisé

  • Adresse de l'article : https://arxiv.org/pdf/2401.14404.pdf

Ils n'ont pas utilisé les orientations existantes Le DDM généré entraîne à la place un modèle orienté reconnaissance. L'idée centrale de cette recherche est de déconstruire le DDM et de le modifier étape par étape jusqu'à ce qu'il devienne un DAE classique.

Grâce à ce processus de recherche déconstructif, ils ont soigneusement exploré tous les aspects du DDM moderne en termes d'objectifs de représentation d'apprentissage. Le processus de recherche a apporté à la communauté de l'IA une nouvelle compréhension des composants clés dont un DAE a besoin pour apprendre une bonne représentation.

Étonnamment, ils ont découvert que le composant clé principal est le tokenizer, dont la fonction est de créer un espace latent de faible dimension. Il est intéressant de noter que cette observation est largement indépendante du tokenizer spécifique : ils ont exploré les encodeurs VAE standard, VAE au niveau des tuiles, AE au niveau des tuiles et PCA au niveau des tuiles. Ils ont découvert que ce qui rend DAE bien représenté est l’espace latent de faible dimension, et non le tokenizer spécifique.

Grâce à l'efficacité du PCA, l'équipe l'a complètement déconstruit et a finalement obtenu une architecture simple et très similaire au DAE classique (voir Figure 1).

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Ils utilisent la PCA au niveau des tuiles pour projeter l'image dans un espace latent, ajouter du bruit et la projeter à nouveau via la PCA inverse. Un auto-encodeur est ensuite entraîné pour prédire l’image débruitée.

Ils appellent cette architecture latent Denoising Autoencoder (l-DAE), qui est un autoencodeur à débruitage latent.

Le processus de déconstruction de l’équipe a également révélé de nombreuses autres propriétés intéressantes entre le DDM et le DAE classique.

Par exemple, ils ont constaté que de bons résultats peuvent être obtenus avec le l-DAE même avec un seul niveau de bruit (c'est-à-dire une planification du bruit sans DDM). L’utilisation de bruit à plusieurs niveaux agit comme une forme d’augmentation des données, ce qui peut être bénéfique, mais ne constitue pas un facteur contributif.

Sur la base de ces observations, l'équipe estime que les capacités de caractérisation du DDM sont principalement obtenues par des processus axés sur le débruitage plutôt que par des processus axés sur la diffusion.

Enfin, l'équipe a également comparé ses résultats avec les benchmarks précédents. D’une part, les nouveaux résultats sont meilleurs que les méthodes précédemment disponibles : c’est normal, puisque ces modèles ont été le point de départ du processus de déconstruction. D'un autre côté, les résultats de la nouvelle architecture ne sont pas aussi bons que ceux des méthodes d'apprentissage contrastées de base et des méthodes basées sur les masques, mais l'écart est un peu réduit. Cela montre également qu’il reste de la place pour des recherches plus approfondies dans la direction de recherche du DAE et du DDM.

Contexte : Modèle de diffusion de débruitage

Le point de départ de cette étude déconstructive est le modèle de diffusion de débruitage (DDM).

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

En ce qui concerne le DDM, veuillez vous référer aux articles "Les modèles de diffusion battent les GAN sur la synthèse d'images" et "Modèles de diffusion évolutifs avec transformateurs" et les rapports associés sur ce site "U-Net, qui domine le modèle de diffusion, sera être remplacé, Xie Saining et al. Présentent Transformer et proposent DiT》.

Déconstruction du modèle de diffusion débruitante

Nous nous concentrons ici sur son processus de déconstruction - ce processus est divisé en trois étapes. La première consiste à modifier le cadre de DiT centré sur la génération en un cadre davantage axé sur l’apprentissage auto-supervisé. Ensuite, déconstruisons et simplifions progressivement le tokenizer. Enfin, ils ont essayé de procéder à une ingénierie inverse autant que possible de la conception basée sur DDM pour rapprocher le modèle du DAE classique.

Redirection du DDM vers l'apprentissage auto-supervisé

Bien que conceptuellement, le DDM soit une forme de DAE, il a été développé à l'origine pour des tâches de génération d'images. De nombreuses conceptions dans DDM sont orientées vers des tâches génératives. Certaines conceptions ne sont pas intrinsèquement adaptées à l'apprentissage auto-supervisé (par exemple, impliquant des étiquettes de catégorie) ; d'autres ne sont pas nécessaires lorsque la qualité visuelle n'est pas prise en compte.

Dans cette section, l'équipe ajustera l'objectif du DDM à l'apprentissage auto-supervisé. Le tableau 1 montre la progression de cette phase.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Supprimer le conditionnement des catégories

La première étape consiste à supprimer le processus de conditionnement des catégories dans le modèle de base.

De manière inattendue, la suppression du conditionnement des catégories améliore considérablement la précision de la sonde linéaire (de 57,5 ​​% à 62,1 %), mais la qualité de la génération diminue considérablement comme prévu (FID de 11,6 à 34,2).

L'équipe a émis l'hypothèse que conditionner le modèle directement sur les étiquettes de catégorie pourrait réduire le besoin du modèle d'encoder des informations sur les étiquettes de catégorie. La suppression du conditionnement de catégorie forcera le modèle à apprendre plus de sémantique

Déconstruction de VQGAN

DiT Le processus de formation du tokenizer VQGAN hérité de LDM utilise plusieurs termes de perte : perte de reconstruction d'encodage automatique, perte de régularisation de divergence KL, perte de perception basée sur un VGG supervisé réseau formé pour la classification ImageNet, perte contradictoire à l'aide du discriminateur. L'équipe a mené des études d'ablation sur ces deux dernières pertes, voir le tableau 1.

Bien sûr, la suppression des deux pertes affectera la qualité de la génération, mais dans l'indice de précision de détection linéaire, la suppression de la perte de perception la fera passer de 62,5 % à 58,4 %, tandis que la suppression de la perte contradictoire la fera augmenter de 58,4 % à. 59,0%. Après avoir supprimé la perte contradictoire, le tokenizer est essentiellement un VAE.

Remplacer la planification du bruit

L'équipe a étudié un schéma de planification du bruit plus simple pour soutenir l'apprentissage auto-supervisé.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Plus précisément, laissez le facteur d'échelle du signal γ^2_t s'atténuer linéairement dans la plage de 1>γ^2_t≥0. Cela permet au modèle de mettre plus de puissance dans des images plus nettes. Cela augmente considérablement la précision de détection linéaire de 59,0 % à 63,4 %.

Déconstruire le tokenizer

Ensuite, nous déconstruisons le tokenizer VAE à travers de nombreuses simplifications. Ils ont comparé quatre variantes d'auto-encodeurs comme tokenizers, dont chacune est une version simplifiée de la précédente :

  • VAE convolutif : C'est le résultat de l'étape précédente de déconstruction, un cas courant est ce VAE L'encodeur et le décodeur sont ; réseaux neuronaux convolutifs profonds.

  • VAE au niveau des tuiles : transformez les entrées en tuiles.

  • AE au niveau des tuiles : le terme de régularisation de VAE est supprimé, ce qui fait que VAE devient essentiellement AE, et son encodeur et son décodeur sont tous deux des projections linéaires.

  • ACP au niveau des tuiles : une variante plus simple qui effectue une analyse en composantes principales (ACP) sur l'espace des tuiles. Il est facile de montrer que PCA est équivalent à un cas particulier d’AE.

Parce que travailler avec des tuiles est simple, l'équipe a visualisé les filtres de trois tokeniseurs au niveau des tuiles dans l'espace des tuiles, voir Figure 4.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Le Tableau 2 résume la précision de détection linéaire de DiT lors de l'utilisation de ces quatre variantes de tokenizer.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Ils ont observé les résultats suivants :

  • Pour que DDM puisse bien réaliser un apprentissage auto-supervisé, la dimension implicite du tokenizer est cruciale.

  • Pour l'apprentissage auto-supervisé, le DDM haute résolution basé sur les pixels fonctionne mal (voir Figure 5.

Devenez un auto-encodeur à débruitage classique

Le prochain objectif de la déconstruction L'objectif est de créer le modèle aussi proche que possible du DAE classique, c'est-à-dire supprimer tous les aspects qui différencient le DDM actuel basé sur PCA du DAE classique. Les résultats sont présentés dans le tableau 3.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Le DDM moderne prédit généralement le bruit, tandis que le classique. DAE prédit des données claires. L'approche de l'équipe consiste à accorder plus de poids au terme de perte de données plus claires en ajustant la fonction de perte.

Cette modification entraînera une précision de détection linéaire passée de 65,1 % à 62,4 %. de la cible de prédiction affecte la qualité de la représentation.

Supprimez la mise à l'échelle de l'entrée

Dans le DDM moderne, l'entrée a un facteur de mise à l'échelle γ_t, mais cela n'est pas souvent fait dans les DAE classiques

En définissant γ_t ≡ 1, l'équipe a découvert. qu'il a atteint une précision de 63,6 % (voir tableau 3), ce qui est meilleur que le modèle avec la variable γ_t (62,4 %). Cela montre que dans le scénario actuel, la précision de l'entrée est complètement inutile.

Utilisez la PCA inverse pour opérer sur l'espace image

Jusqu'à présent, pour toutes les entrées explorées précédemment (sauf la figure 5), le modèle a été exécuté dans l'espace implicite généré par le tokenizer (figure 2(b)). J'aimerais que le DAE opère directement sur l'espace image tout en obtenant une excellente précision de position. L'équipe a constaté que puisque la PCA est utilisée, la PCA inverse peut être utilisée pour y parvenir.

En apportant cette modification sur le. côté entrée (en prédisant toujours la sortie sur l'espace implicite), nous pouvons obtenir une précision de 63,6 % (tableau 3) et si nous l'appliquons davantage du côté sortie (c'est-à-dire que la prédiction de la sortie sur l'espace image à l'aide de la PCA inverse donne une précision de 63,9 %. Les deux résultats montrent que les résultats obtenus en opérant sur l'espace image à l'aide de la PCA inverse sont similaires à ceux prédits sur l'espace latent.

Bien que la PCA inverse puisse obtenir la cible prédite dans l'espace image, la cible n'est pas l'image originale. En effet, PCA est un encodeur avec perte pour toute dimension réduite d. Une solution plus naturelle consiste à prédire directement l'image originale

Lorsqu'il est demandé au réseau de prédire l'image originale, le « bruit » introduit se compose de deux parties : l'additif. Bruit gaussien (sa dimension intrinsèque est d) et erreur de reconstruction PCA (sa dimension intrinsèque est d − d (D est 768). L'approche de l'équipe consiste à pondérer les deux parties séparément. Grâce à la conception de l'équipe, l'image originale peut être obtenue. être prédit avec une précision de détection linéaire de 64,5%. Le volume est conceptuellement très simple : son entrée est une image bruitée, où le bruit est ajouté à l'espace implicite PCA, et sa prédiction est l'image propre d'origine (Figure 1).

Niveau de bruit unique

Enfin, poussée par la curiosité, l'équipe a également travaillé sur une variante avec un seul niveau de bruit. Ils ont souligné que le bruit à plusieurs niveaux obtenu grâce à la planification du bruit est une propriété du processus de diffusion du DDM. D'un point de vue conceptuel, les DAE classiques ne nécessitent pas nécessairement un bruit à plusieurs niveaux.

Ils ont fixé le niveau de bruit σ à une constante √(1/3). En utilisant ce bruit à un seul niveau, la précision du modèle atteint un respectable 61,5 %, ce qui ne représente qu'une amélioration de trois points de pourcentage par rapport aux 64,5 % obtenus avec un bruit à plusieurs niveaux.

L'utilisation du bruit à plusieurs niveaux est similaire à une forme d'augmentation des données dans DAE : c'est bénéfique, mais pas un catalyseur. Cela signifie également que le pouvoir de représentation du DDM provient principalement de processus axés sur le débruitage plutôt que de processus axés sur la diffusion.

Résumé

En résumé, l'équipe a déconstruit le DDM moderne et l'a transformé en un DAE classique.

Ils ont supprimé de nombreuses conceptions modernes et n'ont conservé conceptuellement que deux conceptions héritées du DDM moderne : l'espace implicite de faible dimension (c'est là que le bruit est ajouté) et le bruit à plusieurs niveaux.

Ils utilisent le dernier élément du tableau 3 comme instance DAE finale (illustré dans la figure 1). Ils appellent cette méthode latent Denoising Autoencoder (latent denoising autoencoder), en abrégé l-DAE. ​ ​ ​

Analyse et comparaison

Visualisation du bruit implicite

Conceptuellement, le l-DAE est une forme de DAE qui apprend à supprimer le bruit ajouté à l'espace implicite. La PCA étant simple, le bruit implicite dans la PCA inverse peut être facilement visualisé.

La figure 7 compare le bruit ajouté aux pixels et le bruit ajouté à l'espace latent. Contrairement au bruit des pixels, le bruit implicite est largement indépendant de la résolution de l’image. Si le PCA au niveau des tuiles est utilisé comme tokenizer, le modèle de bruit implicite est principalement déterminé par la taille des tuiles.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Résultats de débruitage

La figure 8 montre d'autres exemples de résultats de débruitage basés sur le l-DAE. On constate que la nouvelle méthode permet d’obtenir de meilleurs résultats de prédiction, même si le bruit est fort.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Augmentation des données

Il convient de noter qu'aucun des modèles présentés ici n'utilise l'augmentation des données : seul le recadrage de la zone centrale de l'image est utilisé, pas de redimensionnement aléatoire ni de tramage des couleurs. L'équipe a effectué des recherches plus approfondies et testé en utilisant une légère augmentation des données pour le l-DAE final :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Les résultats se sont légèrement améliorés. Cela indique que les capacités d'apprentissage des représentations du l-DAE sont largement indépendantes de l'augmentation des données. Un comportement similaire a été observé dans MAE, voir l'article de He Kaiming et al. "Les auto-encodeurs masqués sont des apprenants à vision évolutive", qui est assez différent de la méthode d'apprentissage contrastive.

Époque d'entraînement

Toutes les expériences précédentes étaient basées sur un entraînement de 400 époques. Selon la conception de MAE, l'équipe a également étudié l'entraînement de 800 et 1600 époques :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

En revanche, lorsque le nombre d'époques est passé de 400 à 800, MAE a eu un gain significatif (4% mais MoCo v3) ; Il n'y a presque aucun gain (0,2 %) lorsque le numéro d'époque passe de 300 à 600.

Taille du modèle

Tous les modèles précédents étaient basés sur la variante DiT-L, et leurs encodeurs et décodeurs étaient des ViT-1/2L (la moitié de la profondeur du ViT-L). L'équipe a ensuite formé des modèles de différentes tailles, l'encodeur étant ViT-B ou ViT-L (le décodeur a toujours la même taille que l'encodeur) :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Vous pouvez voir : Lorsque la taille du modèle change de ViT-B Lorsqu'il est agrandi en ViT-L, un énorme gain de 10,6 % peut être obtenu.

Comparez les modèles de base précédents

Enfin, afin de mieux comprendre les effets des différents types de méthodes d'apprentissage auto-supervisées, l'équipe a effectué une comparaison et les résultats sont présentés dans le tableau 4.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Fait intéressant, le l-DAE fonctionne raisonnablement bien par rapport au MAE, avec seulement une baisse de 1,4 % (ViT-B) ou 0,8 % (ViT-L). D’un autre côté, l’équipe a également noté que MAE est plus efficace en formation car il ne traite que les tuiles non masquées. Néanmoins, l’écart de précision entre les méthodes MAE et DAE a été réduit dans une large mesure.

Enfin, ils ont également observé que les méthodes basées sur des auto-encodeurs (MAE et l-DAE) présentent encore des lacunes par rapport aux méthodes d'apprentissage contrastif de ce protocole, notamment lorsque le modèle est petit. Ils ont finalement déclaré : "Nous espérons que nos recherches attireront davantage d'attention sur la recherche sur l'apprentissage auto-supervisé utilisant des méthodes basées sur un auto-encodeur."

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer