Maison  >  Article  >  Périphériques technologiques  >  Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

WBOY
WBOYoriginal
2024-06-10 14:24:57861parcourir
Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

La reconstruction 3D et la nouvelle technologie de synthèse de vues sont largement utilisées dans les domaines de la réalité virtuelle et de la réalité augmentée. NeRF a obtenu un succès remarquable dans la synthèse de vues en codant implicitement des scènes sous forme de scènes de rayons. Cependant, sa praticité est grandement limitée par le fait que NeRF s'appuie sur l'interrogation point par point de collections denses pour le rendu, qui prend beaucoup de temps. Pour résoudre ce problème, certaines méthodes NeRF généralisables ont vu le jour, visant à reconstruire des scènes à partir de plusieurs vues de manière anticipée sur le réseau. Cependant, les méthodes basées sur NeRF sont limitées en vitesse car elles nécessitent d'interroger une collection dense de points sur les rayons pour le rendu. Récemment, le 3D Gaussian Splatting (3D-GS) utilise des gaussiennes 3D anisotropes pour afficher des scènes et obtient un rendu de haute qualité en temps réel grâce à un rastériseur différentiel.

Cependant, 3D-GS repose également sur l'optimisation de chaque scène, ce qui prend des dizaines de minutes par scène. Afin de résoudre ce problème, des travaux de reconstruction gaussienne généralisée sont apparus par la suite, essayant de généraliser le 3D-GS à des scènes inédites. Cependant, la formation et l'efficacité du rendu de ces méthodes doivent être améliorées et se limitent principalement à la reconstruction d'objets ou de corps humains.

Sur cette base, des chercheurs de l'Université des sciences et technologies de Huazhong, de l'Université technologique de Nanyang, de l'Université de la région de la Grande Baie et du Laboratoire d'intelligence artificielle de Shanghai ont proposé conjointement un modèle de reconstruction gaussienne efficace et généralisable, appelé MVSGaussian, pour une utilisation future. scènes vues. Ce modèle fonctionne en divisant l'image d'entrée en plusieurs vues et en utilisant un processus gaussien pour estimer les informations de profondeur et de texture, puis utilise un algorithme de correspondance stéréo multi-vues pour fusionner les vues et générer des résultats de reconstruction de haute qualité. Cette méthode atteint un bon équilibre entre la qualité de la reconstruction et l'efficacité du calcul, fournissant une nouvelle solution pour les futures tâches de synthèse visuelle

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

  • Titre de l'article : Reconstruction rapide par éclaboussures gaussiennes généralisables à partir de la stéréo multi-vues

  • Adresse de l'article : https ://arxiv.org/abs/2405.12218

  • Page d'accueil du projet : https://mvsgaussian.github.io/

  • Code open source : https://github.com/ TQTQliu/MVSGaussian

  • Vidéo de démonstration : https://youtu.be/4TxMQ9RnHMA

Ce modèle est capable d'apprendre une représentation gaussienne 3D d'une scène à partir d'images multi-vues clairsemées. En combinant les avantages du raisonnement géométrique au format d'affichage stéréo multi-vues (MVS) et du rendu gaussien en temps réel en profondeur, MVSGaussian fonctionne bien en raisonnement généralisé et peut obtenir la meilleure qualité de rendu de vue à la vitesse la plus rapide. De plus, MVSGaussian présente également des avantages significatifs en matière d'optimisation scène par scène, réalisant un rendu en temps réel de haute qualité en seulement 45 secondes (environ 1/10 de 3D-GS).泛 Figure 1 Qu'il soit généralisé en raisonnement ou en optimisation, MVSGAUSSIAN présente des avantages évidents en termes de qualité de vue, de vitesse de rendu et de temps d'optimisation.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

Figure 2 Comparaison des changements de qualité de vue de rendu avec le temps d'optimisation (nombre d'itérations). Étant donné que le modèle généralisable fournit une bonne initialisation, MVSGaussian peut réaliser une synthèse de vues de haute qualité avec un temps d'optimisation plus court (moins d'itérations). Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

Principe de basePour concevoir un cadre de pulvérisation gaussienne efficace et généralisable, nous sommes confrontés aux défis clés suivants :

1) Contrairement à NeRF qui utilise une représentation implicite, 3D-GS exprime explicitement la scène en utilisant des millions de gaussiennes 3D. sphères. Lors de l'application du 3D-GS pré-entraîné à des scènes invisibles, les paramètres de la sphère gaussienne 3D, tels que la position et la couleur, diffèrent considérablement. Concevoir une représentation générale adaptée au 3D-GS est une tâche non triviale.

2) La méthode NeRF généralisable permet d'obtenir des effets de synthèse de vue impressionnants grâce au rendu de volume. Cependant, la capacité de généralisation de la pulvérisation gaussienne n’a pas été pleinement explorée. Au cours du processus de pulvérisation, chaque sphère gaussienne contribue à plusieurs pixels dans une certaine zone de l'image, et la couleur de chaque pixel est accumulée à partir des contributions de plusieurs sphères gaussiennes. La correspondance des couleurs entre les sphères gaussiennes et les pixels est une relation plusieurs-à-plusieurs plus complexe, ce qui pose un défi à la capacité de généralisation du modèle.

3) La méthode NeRF généralisable montre qu'un réglage plus fin pour des scénarios spécifiques peut améliorer considérablement la qualité des vues synthétisées, mais cela nécessite beaucoup de temps d'optimisation. Bien que 3D-GS soit plus rapide que NeRF, cela prend quand même plus de temps. Par conséquent, la conception d’une méthode d’optimisation rapide scène par scène basée sur des modèles généralisables constitue une direction de recherche très prometteuse.

En réponse aux défis ci-dessus, nous nous avons donné nos solutions.

1) La distribution de position de la sphère gaussienne correspondant à chaque scène étant différente, nous utilisons la stéréo multi-vues (MVS) pour modéliser explicitement la géométrie de la scène et en déduire la profondeur. Ensuite, nous codons les caractéristiques des points 3D correspondant à la profondeur estimée pour construire une représentation gaussienne alignée sur les pixels.

2) Sur la base des caractéristiques codées, nous pouvons les décoder en paramètres gaussiens via MLP pour restituer la vue à l'aide de la technologie de pulvérisation cathodique. Cependant, nous avons constaté que cette approche a une capacité de généralisation limitée. Notre idée est que la modalité de pulvérisation introduit une relation plusieurs-à-plusieurs complexe en termes de contribution de couleur, c'est-à-dire entre les sphères gaussiennes et les pixels, ce qui pose un défi à la généralisation. Par conséquent, nous proposons une méthode de rendu de volume simple et efficace, sensible à la profondeur, pour améliorer la capacité de généralisation, c'est-à-dire en utilisant une méthode de rendu de volume à un seul point d'échantillonnage. La vue finale rendue est obtenue en faisant la moyenne des vues rendues par la technique de pulvérisation cathodique et la technique de rendu volumique.

3) Le modèle généralisable pré-entraîné peut générer un grand nombre de gaussiennes 3D sous plusieurs perspectives, et ces nuages ​​​​de points gaussiens peuvent être utilisés comme initialisation pour une optimisation ultérieure scène par scène. Cependant, en raison des limites inhérentes à la méthode MVS, la profondeur prédite par le modèle généralisable peut ne pas être totalement précise, ce qui entraîne du bruit dans le nuage de points gaussien généré. Assembler directement ces nuages ​​de points gaussiens produira beaucoup de bruit. De plus, un grand nombre de points ralentiront l'optimisation et le rendu ultérieurs. Une solution intuitive consiste à sous-échantillonner le nuage de points assemblé. Cependant, tout en réduisant le bruit, cela réduit également le nombre de points valides. Notre idée est qu'une bonne stratégie d'agrégation doit réduire les points de bruit et conserver autant que possible les points valides tout en garantissant que le nombre total de points n'est pas trop grand. Pour cela, nous introduisons une stratégie d’agrégation basée sur la cohérence géométrique multi-vues. Plus précisément, nous suivons le principe selon lequel la profondeur prédite du même point 3D sous différents angles de vue doit être cohérente et filtrons les points de bruit en calculant l'erreur de reprojection des profondeurs gaussiennes sous différents angles de vue.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

Figure 3 Cadre de pulvérisation gaussienne généralisable. Les fonctionnalités sont d'abord extraites de la vue d'entrée à l'aide d'un réseau de pyramides de fonctionnalités (FPN), qui sont déformées selon la perspective cible, construisant un volume de coûts, puis régularisées par des CNN 3D pour générer de la profondeur. Ensuite, pour les points 3D correspondant à la profondeur, nous construisons des représentations gaussiennes alignées sur les pixels en agrégeant des fonctionnalités de codage d'informations multi-vues et spatiales. Ces caractéristiques sont ensuite décodées en paramètres gaussiens et paramètres de rendu de volume, qui restituent deux vues, et le résultat final est la moyenne des deux vues.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

Figure 4 Agrégation cohérente. À l'aide d'un modèle généralisable pour générer des cartes de profondeur et des nuages ​​de points gaussiens, nous effectuons d'abord une vérification de cohérence géométrique multi-vues sur la carte de profondeur afin d'obtenir un masque permettant de filtrer les points peu fiables. Par la suite, les nuages ​​​​de points filtrés sont fusionnés en un seul nuage de points en guise d'initialisation pour l'optimisation scène par scène.

Comparaison des résultats

Cet article effectue une évaluation des ensembles de données largement utilisés DTU, Real Forward-facing, NeRF Synthetic et Tanks and Temples, en rapportant des métriques telles que PSNR, SSIM, LPIPS et FPS. En termes d'inférence de généralisation (Tableaux 1 et 2), MVSGaussian démontre des performances supérieures, obtenant de meilleures performances avec la vitesse la plus rapide et une surcharge de mémoire minimale. En termes d'optimisation scène par scène (Tableau 3), MVSGaussian est capable d'obtenir le meilleur effet de synthèse de vue dans le temps d'optimisation le plus court (environ 1/10 de 3D-GS) et maintient une vitesse de rendu en temps réel comparable à la 3D. -GS. Les comparaisons qualitatives de vues et de vidéos démontrent également la capacité de MVSGaussian à synthétiser des vues de haute qualité avec plus de détails sur la scène et moins d'artefacts. D'autres résultats vidéo sont disponibles sur la page d'accueil du projet.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

                                                                                                                                                                                                                    Tableau 1 : Résultats quantitatifs sur la généralisation l’ensemble de test DTU. Tableau 2 Résultats de généralisation quantitative sur les ensembles de données Real Forward-facing, NeRF Synthetic et Tanks and Temples. Tableau 3 Résultats quantitatifs après optimisation scène par scénario. Figure 5 Comparaison des résultats du raisonnement de généralisation.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.

                                                                                   Figure 7 Comparaison des résultats après optimisation scène par scène. ♥                                                                                                                       à comparer.

Un cadre de reconstruction gaussienne efficace et généralisable qui peut raisonner rapidement avec seulement 3 vues et une optimisation complète en 45 secondes.Conclusion

Dans cet article, nous avons proposé MVSGaussian, une nouvelle méthode de pulvérisation gaussienne généralisable pour la reconstruction de scènes à partir de plusieurs vues. Plus précisément, nous utilisons MVS pour raisonner sur la géométrie et construire une représentation gaussienne alignée sur les pixels. De plus, nous proposons une méthode de rendu gaussien hybride qui combine un rendu de volume efficace sensible à la profondeur pour améliorer les capacités de généralisation. En plus de généraliser directement l’inférence, notre modèle peut être rapidement affiné pour des scénarios spécifiques. Pour obtenir une optimisation rapide, nous introduisons une stratégie d'agrégation à géométrie cohérente multi-vues pour fournir une initialisation de haute qualité. Comparé au NeRF généralisable, qui nécessite généralement des dizaines de minutes de réglage fin et quelques secondes pour restituer chaque image, MVSGaussian permet un rendu en temps réel avec une qualité de synthèse supérieure. De plus, par rapport au 3D-GS, MVSGaussian permet d'obtenir de meilleurs effets de synthèse de vue tout en réduisant les coûts de calcul de la formation. Des expériences approfondies vérifient que MVSGaussian atteint l'état de l'art en termes de performances de généralisation, de vitesse de rendu en temps réel et d'optimisation rapide scène par scène. Cependant, étant donné que MVSGaussian s'appuie sur la stéréo multi-vues (MVS) pour l'estimation de la profondeur, il hérite des limites de MVS, telles qu'une précision de profondeur réduite dans les zones présentant des textures faibles ou des réflexions spéculaires, ce qui entraîne une qualité de vue dégradée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn