Maison >Périphériques technologiques >IA >Produit par l'Université de Pékin : le dernier SOTA avec une qualité de texture et une cohérence multi-vues, permettant la conversion 3D d'une image en 2 minutes
Cela ne prend que deux minutes pour convertir des images en 3D !
C'est aussi le genre avec une qualité de texture élevée, un affichage multiple et une consistance élevée.
Peu importe de quelle espèce il s'agit, l'image à vue unique lors de la saisie est toujours comme ceci :
Après deux minutes, la version 3D est terminée :
△, Repaint123 (NeRF ); Ensuite, Repaint123 (GS)
La nouvelle méthode s'appelle Repaint123 L'idée principale est de combiner les puissantes capacités de génération d'images du modèle de diffusion 2D avec les capacités d'alignement de texture de la stratégie de repeinture pour générer des valeurs élevées. -images multi-vues cohérentes et de qualité.
De plus, cette recherche introduit également une méthode d'intensité de repeinture adaptative sensible à la visibilité pour les zones qui se chevauchent.
Repaint123 résout les problèmes des méthodes précédentes tels que la grande déviation multi-vues, la dégradation de la texture et la génération lente d'un seul coup.
Actuellement, le code du projet n'a pas été publié sur GitHub, mais plus de 100 personnes sont venues le marquer :
Auparavant, la méthode de conversion d'images en 3D utilisait généralement le Score Distillation Sampling (SDS). Bien que les résultats de cette méthode soient impressionnants, il existe certains problèmes tels qu'une incohérence multi-vue, une sursaturation, des textures trop lissées et une vitesse de génération lente.
△De haut en bas : entrée, Zero123-XL, Magic123, Dream gaussian
Afin de résoudre ces problèmes, des chercheurs de l'Université de Pékin, du Laboratoire Pengcheng, de l'Université nationale de Singapour et de l'Université de Wuhan ont proposé Repaint123.
En général, Repaint123 a les contributions suivantes :
(1) Repaint123 peut générer des séquences d'images de haute qualité en considérant de manière exhaustive le processus de redessin contrôlable depuis les images jusqu'à la génération 3D, et garantir que ces images sont cohérentes sur plusieurs points de vue.
(2)Repaint123 propose une méthode de base simple pour la génération 3D à vue unique.
Au stade du modèle approximatif, il utilise Zero123 comme préalable 3D, combiné à la fonction de perte SDS, pour générer rapidement un modèle 3D approximatif (seulement 1 minute) en optimisant la géométrie du Splatting gaussien.
Dans la phase de modélisation fine, il utilise la diffusion stable comme préalable 2D, combinée à la fonction de perte d'erreur quadratique moyenne (MSE), pour générer un modèle 3D de haute qualité en affinant rapidement la texture du maillage (cela ne prend également qu'une minute) .
(3) Un grand nombre d'expérimentations ont prouvé l'efficacité de la méthode Repaint123. Il est capable de générer du contenu 3D de haute qualité correspondant à la qualité de génération 2D à partir d’une seule image en seulement 2 minutes.
△Obtenez une génération rapide 3D à vue unique cohérente et de haute qualité
Jetons un coup d'œil aux méthodes spécifiques.
Repaint123 se concentre sur l'optimisation de l'étape de raffinement du maillage et ses principales orientations d'amélioration couvrent deux aspects : générer des séquences d'images de haute qualité avec une cohérence multi-vues et réaliser une reconstruction 3D rapide et de haute qualité.
1. Génération de séquences d'images de haute qualité avec une cohérence multi-vues
La génération de séquences d'images de haute qualité avec une cohérence multi-vues est divisée en trois parties suivantes :
△Génération d'images cohérentes multi-vues processus
Inversion DDIM
Afin de conserver les informations de texture basse fréquence cohérentes en 3D générées au stade du modèle grossier, l'auteur utilise l'inversion DDIM pour inverser l'image dans un espace latent déterminé, jetant ainsi les bases du débruitage ultérieur. processus, générant des images fidèles et cohérentes.
Débruitage contrôlable
Afin de contrôler la cohérence géométrique et la cohérence de la texture à longue portée lors de l'étape de débruitage, l'auteur a introduit ControlNet, en utilisant la carte de profondeur rendue par le modèle grossier comme a priori géométrique, et en injectant en même temps la fonction Attention de la référence image pour la migration de texture.
De plus, afin d'effectuer un guidage sans classificateur pour améliorer la qualité de l'image, l'article utilise CLIP pour coder les images de référence en repères d'image afin de guider le réseau de débruitage.
Redessiner
Redessin progressif de l'occlusion et des parties superposées Afin de garantir que les zones superposées des images adjacentes dans la séquence d'images sont alignées au niveau des pixels, l'auteur adopte une stratégie de redessinage local progressif.
Générez des zones adjacentes harmonieuses tout en gardant inchangées les zones qui se chevauchent, et étendez-les progressivement jusqu'à 360° depuis la perspective de référence.
Cependant, comme le montre la figure ci-dessous, l'auteur a constaté que la zone de chevauchement doit également être affinée, car la résolution visuelle de la zone précédemment strabique devient plus grande pendant l'emmétropie et davantage d'informations à haute fréquence doivent être ajoutées.
De plus, l'intensité de l'amincissement est égale à 1-cosθ*, où θ* est la valeur maximale de l'angle θ entre tous les angles de caméra précédents et le vecteur normal de la surface vue, redessinant ainsi de manière adaptative le chevauchement. zone.
△La relation entre l'angle de la caméra et l'intensité de l'amincissement
Afin de choisir l'intensité d'amincissement appropriée pour assurer la fidélité tout en améliorant la qualité, l'auteur s'est inspiré du théorème de projection et de l'idée de super-résolution d'image et a proposé une stratégie de redessinage simple et directe, tenant compte de la visibilité, pour affiner les régions qui se chevauchent.
2. Reconstruction 3D rapide et de haute qualité
Comme le montre la figure ci-dessous, l'auteur adopte une méthode en deux étapes dans le processus de reconstruction 3D rapide et de haute qualité.
△Repaint123, cadre de génération 3D à vue unique en deux étapes
Tout d'abord, ils utilisent la représentation Gaussian Splatting pour générer rapidement des structures géométriques raisonnables et des textures rugueuses.
Dans le même temps, à l'aide de la séquence d'images de haute qualité cohérente multi-vues générée précédemment, l'auteur est capable d'effectuer une reconstruction rapide de texture 3D en utilisant une simple erreur quadratique moyenne (MSE) perte.
Les chercheurs ont comparé les méthodes sur plusieurs tâches de génération à vue unique.
△Comparaison de visualisation de génération 3D à vue unique
Sur les ensembles de données RealFusion15 et Test-alpha, Repaint123 a obtenu les meilleurs résultats sous trois aspects : cohérence, qualité et rapidité.
Dans le même temps, l'auteur a également mené des expériences d'ablation sur l'efficacité de chaque module utilisé dans l'article et l'incrément de rotation de l'angle de vision :
et a constaté que lorsque l'intervalle d'angle de vision est de 60 Degrés, les performances atteignent leur apogée. Cependant, un intervalle d'angle de vision excessif réduira la zone de chevauchement et augmentera la possibilité de problèmes à multiples facettes, de sorte que 40 degrés peuvent être utilisés comme intervalle d'angle de vision optimal.
Adresse papier : https://arxiv.org/pdf/2312.13271.pdf
Adresse code : https://pku-yuangroup.github.io/repaint123/
Adresse du projet : https : //pku-yuangroup.github.io/repaint123/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!