Maison >Périphériques technologiques >IA >ACM MM 2023 | DiffBFR : Méthode de restauration de visage avec suppression du bruit proposée conjointement par Meitu et l'Université chinoise des sciences et technologies
L'objectif de Blind Face Restoration (BFR) est de restaurer des images de visage de haute qualité à partir d'images de visage de mauvaise qualité. Il s'agit d'une tâche importante dans le domaine de la vision par ordinateur et du graphisme, et elle est largement utilisée dans divers scénarios tels que la restauration d'images de surveillance, la restauration d'anciennes photos et la super-résolution d'images de visage. Cependant, cette tâche est très difficile car elle n'est pas déterministe. la dégradation endommagera la qualité de l’image et entraînera même la perte d’informations sur l’image, telles que le flou, le bruit, le sous-échantillonnage et les artefacts de compression. Les méthodes BFR précédentes s'appuient généralement sur des réseaux contradictoires génératifs (GAN) pour résoudre ces problèmes en concevant divers a priori spécifiques au visage, notamment des a priori génératifs, des a priori de référence et des a priori géométriques. Bien que ces méthodes aient atteint le niveau de pointe, elles ne peuvent toujours pas atteindre pleinement l'objectif d'obtenir des textures réalistes tout en restaurant les détails.
Dans le processus de restauration d'images, les ensembles de données d'images de visage sont généralement dispersés dans un espace de grande dimension. et distribué Les dimensions des entités présentent une distribution à longue traîne. Différentes de la distribution à longue traîne des tâches de classification d'images, les caractéristiques régionales à longue traîne dans la restauration d'images font référence à des attributs qui ont un faible impact sur l'identité mais ont un grand impact sur les effets visuels, tels que les grains de beauté, les rides, les tons, etc.
Selon la figure 1, la simplicité montrée est que afin de ne pas changer le sens original, les résultats expérimentaux doivent être réécrits en chinois. Nous pouvons constater que les anciennes méthodes basées sur le GAN ont des problèmes évidents lors du traitement des échantillons de tête et de queue. des distributions à longue traîne en même temps. Un dépassement se produira lors de la réparation de l'image et une perte de détails. La méthode basée sur les modèles probabilistes de diffusion (DPM) peut mieux s'adapter à la distribution à longue traîne et conserver les caractéristiques de la queue tout en s'adaptant à la distribution de données réelles
Le contenu qui doit être réécrit est : basé sur GAN et DPM- tests basés sur des problèmes à longue traîneMeitu Imaging Research Institute (MT Lab) a collaboré avec des chercheurs de l'Université de l'Académie chinoise des sciences pour proposer une nouvelle méthode de réparation d'images de visage aveugle DiffBFR, Cette méthode est basée sur la technologie DPM et permet d'obtenir avec succès la restauration d'images de visages aveugles, la réparation d'images de visage de faible qualité (LQ) en images claires de haute qualité (HQ)
Le contenu qui doit être réécrit est : Lien papier : https://arxiv.org/ abs/2305.04517
Cette étude explore l'adaptabilité de deux modèles génératifs, les réseaux contradictoires génératifs (GAN) et les modèles partiels profonds (DPM), dans le traitement des problèmes à longue traîne. En concevant un module de restauration de visage approprié, des informations détaillées plus précises peuvent être obtenues, réduisant ainsi le lissage excessif du visage qui peut survenir dans les méthodes génératives et améliorant la précision et l'exactitude de la restauration. Ce document de recherche a été accepté par l'ACM MM 2023
Méthode de réparation d'images de visage aveugle basée sur DPM - DiffBFRL'étude a révélé que le modèle de diffusion est meilleur que la méthode GAN pour éviter l'effondrement et l'ajustement du mode d'entraînement pour générer des distributions de queue. Par conséquent, DiffBFR choisit d'utiliser le modèle de probabilité de diffusion pour améliorer l'intégration des informations préalables sur les visages, et l'utilise comme cadre de base pour choisir DPM comme solution. En effet, le modèle de diffusion a la puissante capacité de produire des images de haute qualité dans une plage de distribution arbitraire
Afin de résoudre la distribution à longue traîne des caractéristiques sur l'ensemble de données faciales trouvées dans l'article et le problème de lissage excessif du passé Méthodes basées sur le GAN, cette étude a exploré une conception raisonnable pour mieux s'adapter à la distribution approximative à longue traîne et surmonter le problème de lissage excessif dans le processus de réparation. Grâce à des expériences simples de GAN et DPM avec la même taille de paramètre sur l'ensemble de données MNIST (Figure 1), l'étude a révélé que la méthode DPM peut raisonnablement s'adapter à la distribution à longue traîne, tandis que GAN accorde trop d'attention aux caractéristiques de la tête et ignore les entités de queue. Par conséquent, les entités de queue ne peuvent pas être générées. Par conséquent, DPM est choisi comme solution au BFR
En introduisant deux variables intermédiaires, DiffBFR propose deux modules de réparation spécifiques. La conception adopte une approche en deux étapes, récupérant d'abord les informations d'identité à partir des images LQ, puis améliorant les détails de texture en fonction de la distribution des visages réels. Cette conception se compose de deux parties clés :
(1) Module de restauration d'identité (IRM) :Le but de ce module est de préserver les détails du visage dans les résultats. Parallèlement, une méthode d'échantillonnage tronquée est proposée, qui remplace la méthode de débruitage utilisant une distribution aléatoire gaussienne pure dans le processus inverse en ajoutant une partie du bruit à l'image de faible qualité. L'article prouve théoriquement que ce changement réduit la limite inférieure des preuves théoriques (ELBO) du DPM, rétablissant ainsi des détails plus originaux. Sur la base de preuves théoriques, deux modèles de diffusion conditionnelle en cascade avec différentes tailles d'entrée sont introduits pour améliorer l'effet d'échantillonnage et réduire la difficulté de formation liée à la génération directe d'images haute résolution. Dans le même temps, il est en outre prouvé que plus la qualité de l'entrée conditionnelle est élevée, plus elle est proche de la distribution réelle des données et plus l'image restaurée est précise. C'est aussi la raison pour laquelle DiffBFR restaure d'abord les images basse résolution
(2) Module d'amélioration de texture (TEM) :La méthode utilisée pour texturer les images consiste à introduire un modèle de diffusion inconditionnel. Ce modèle est totalement indépendant des images de faible qualité, ce qui rend les résultats restaurés plus proches des données d'image réelles. L'article prouve théoriquement qu'un modèle de diffusion inconditionnelle formé sur des images purement de haute qualité contribue à la distribution correcte de l'image de sortie dans l'espace au niveau des pixels. Autrement dit, après avoir utilisé ce modèle, la distribution des images peintes a un FID inférieur à celui d'avant son utilisation et est globalement plus similaire à la distribution d'images de haute qualité. Plus précisément, les informations d'identité sont conservées en tronquant l'échantillonnage au pas de temps et la texture au niveau des pixels est peaufinée. Les étapes d'inférence d'échantillonnage de DiffBFR sont illustrées à la figure 2, et le diagramme schématique du processus d'inférence d'échantillonnage est illustré à la figure. 3. Le contenu qui doit être réécrit est : La figure 3 montre le diagramme schématique du processus d'inférence d'échantillonnage de la méthode DiffBFR Afin de ne pas changer le sens original, les résultats expérimentaux doivent être réécrits en chinois
Les effets de visualisation de la méthode BFR basée sur GAN et de la méthode basée sur DPM sont comparés , comme le montre la figure 4 Pour la figure 5, les performances de la méthode SOTA pour le BFR sont comparées La comparaison de visualisation de la méthode BFR est présentée dans la figure 6 Dans le modèle, nous pouvons comparer les performances de l'IRM et du TEM grâce à la visualisation Dans le modèle, les performances de l'IRM et du TEM sont comparées, comme le montre la figure 8 Le contenu qui doit être réécrit est le suivant : Comparez les performances IRM de la figure 9 sous différents paramètres Pour la figure 10, nous devons comparer les performances de différents paramètres Le contenu qui a besoin à réécrire est : La figure 11 montre les paramètres de chaque module de DiffBFR Le résumé consiste à combiner les informations ou le processus de reformulation des idées de manière concise et claire. Cela ne change pas le sens original mais présente la même idée en utilisant un vocabulaire et une structure de phrase différents. Le but d’un résumé est de fournir une présentation plus claire et concise afin que le lecteur puisse plus facilement comprendre et digérer les informations véhiculées. Les résumés sont utiles dans diverses situations, que ce soit dans des articles universitaires, des rapports commerciaux ou des communications quotidiennes, pour transmettre des idées et des conclusions importantes. En bref, le résumé est un outil de communication important qui peut nous aider à transmettre et à comprendre les informations plus efficacement Cet article propose un modèle de restauration d'images faciales par dégradation aveugle DiffBFR basé sur le modèle de diffusion pour résoudre les problèmes des méthodes de formation précédentes basées sur le GAN. crash de mode et problèmes de disparition de longue traîne. En intégrant des connaissances préalables dans le modèle de diffusion, des images restaurées claires et de haute qualité peuvent être générées à partir d’images de visages aléatoires gravement dégradées. Plus précisément, cette étude propose deux modules, IRM et TEM, qui servent respectivement à restaurer la réalité et à restaurer les détails. Grâce à la dérivation théorique et à la démonstration d'images expérimentales, la supériorité du modèle est démontrée et des comparaisons qualitatives et quantitatives sont effectuées avec les méthodes de pointe existantes Ce qui doit être réécrit est : Équipe de recherche Cet article a été proposé conjointement par des chercheurs du Meitu Imaging Research Institute (MT Lab) et de l'Université de l'Académie chinoise des sciences. Le Meitu Imaging Research Institute (MT Lab) a été créé en 2010. Il s'agit d'une équipe de Meitu qui se concentre sur la recherche d'algorithmes, le développement technique et la mise en œuvre de produits dans les domaines de la vision par ordinateur, de l'apprentissage profond, de la réalité augmentée et d'autres domaines. Depuis sa création, l'équipe s'est engagée à explorer la recherche dans le domaine de la vision par ordinateur et a commencé à déployer l'apprentissage profond en 2013 pour fournir un support technique aux produits logiciels et matériels de Meitu. Dans le même temps, ils fournissent également des services SaaS ciblés pour plusieurs domaines verticaux du secteur de l'imagerie et promeuvent le développement écologique des produits d'intelligence artificielle de Meitu grâce à une technologie d'imagerie de pointe. Ils ont participé à des compétitions internationales de premier plan telles que CVPR, ICCV et ECCV, ont remporté plus de dix championnats et finalistes et ont publié plus de 48 articles de conférences universitaires internationales de premier plan. Le Meitu Imaging Research Institute (MT Lab) s'engage depuis longtemps dans la recherche et le développement dans le domaine de l'imagerie, a accumulé de riches réserves techniques et possède une riche expérience de mise en œuvre de technologies dans les domaines de l'image, de la vidéo, du design et du numérique
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!