Maison >Périphériques technologiques >IA >Article complet du CVPR 2024 : l'Université du Zhejiang propose une nouvelle méthode de reconstruction dynamique monoculaire de haute qualité basée sur une gaussienne tridimensionnelle déformable
La scène dynamique monoculaire fait référence à un environnement dynamique observé et analysé à l'aide d'une caméra monoculaire, dans lequel les objets peuvent se déplacer librement dans la scène. La reconstruction de scènes dynamiques monoculaires revêt une importance cruciale dans des tâches telles que la compréhension des changements dynamiques dans l'environnement, la prévision des trajectoires de mouvement des objets et la génération d'actifs numériques dynamiques. Grâce à la technologie de vision monoculaire, il est possible de réaliser une reconstruction tridimensionnelle et une estimation de modèle de scènes dynamiques, nous aidant ainsi à mieux comprendre et gérer diverses situations dans des environnements dynamiques. Cette technologie peut non seulement être appliquée dans le domaine de la vision par ordinateur, mais également jouer un rôle important dans des domaines tels que la conduite autonome, la réalité augmentée et la réalité virtuelle. Grâce à la reconstruction de scènes dynamiques monoculaires, nous pouvons capturer plus précisément le mouvement des objets dans l'environnement
Avec l'essor du rendu neuronal représenté par le champ de radiance neuronale (NeRF), de plus en plus de travaux commencent à utiliser la reconstruction tridimensionnelle cachée de la dynamique. scènes utilisant une représentation implicite. Bien que certaines œuvres représentatives basées sur NeRF, comme D-NeRF, Nerfies, K-planes, etc., aient atteint une qualité de rendu satisfaisante, elles sont encore loin d'un véritable rendu photoréaliste.
L'équipe de recherche de l'Université du Zhejiang et de ByteDance a souligné que le cœur du problème ci-dessus est que le pipeline NeRF basé sur la projection de rayons mappe l'espace d'observation à l'espace canonique via l'espace à reflux), des problèmes de précision et de clarté se posent. La cartographie inverse n'est pas idéale pour la convergence de la structure apprise, ce qui fait que les méthodes actuelles n'atteignent que des indicateurs de rendu PSNR de plus de 30 niveaux sur l'ensemble de données D-NeRF.
Pour résoudre ce défi, l'équipe de recherche a proposé un processus de modélisation de scène dynamique monoculaire basé sur la rastérisation. Ils ont combiné pour la première fois des champs de déformation avec des Gaussiennes 3D, créant ainsi une nouvelle méthode permettant une reconstruction de haute qualité et un nouveau rendu de perspective. Ce document de recherche « Gaussiennes 3D déformables pour la reconstruction de scènes dynamiques monoculaires haute fidélité » a été accepté par CVPR 2024, la plus grande conférence universitaire internationale dans le domaine de la vision par ordinateur. Ce qui est unique dans ce travail est qu'il s'agit de la première étude à appliquer des champs de déformation aux gaussiennes 3D pour les étendre aux scènes dynamiques monoculaires.
Page d'accueil du projet : https://ingra14m.github.io/Deformable-Gaussians/
Lien papier : https://arxiv.org/abs/2309.13101
Code : https : //github.com/ingra14m/Deformable-3D-Gaussians
Les résultats expérimentaux montrent que le champ déformable peut cartographier efficacement la cartographie avant gaussienne 3D dans l'espace canonique avec l'espace d'observation avec précision. Sur l’ensemble de données D-NeRF, une amélioration du PSNR de plus de 10 % a été obtenue. De plus, dans les scènes réelles, même si la pose de la caméra n'est pas assez précise, les détails du rendu peuvent être augmentés. N Figure 1 résultat expérimental de la scène réelle d'hypernerf.
Travail connexeLa reconstruction dynamique de scènes a toujours été un sujet brûlant dans la reconstruction 3D. Alors que le rendu neuronal représenté par NeRF permet d'obtenir un rendu de haute qualité, une série de travaux basés sur la représentation implicite ont vu le jour dans le domaine de la reconstruction dynamique. D-NeRF et Nerfies introduisent des champs de déformation basés sur le pipeline de diffusion de rayons NeRF pour obtenir une reconstruction dynamique robuste de scènes. TiNeuVox, K-Planes et Hexplanes introduisent une structure de grille sur cette base, ce qui accélère considérablement le processus de formation du modèle et améliore la vitesse de rendu. Cependant, ces méthodes sont toutes basées sur une cartographie inverse et ne peuvent pas réellement réaliser un découplage de haute qualité entre l’espace de jauge et les champs de déformation.
3D Gaussian Splash est un pipeline de rendu de nuages de points basé sur la rastérisation. Son pipeline de rastérisation gaussienne différentiable personnalisé par CUDA et sa densification innovante permettent à la gaussienne 3D non seulement d'obtenir une qualité de rendu SOTA, mais également d'obtenir un rendu en temps réel. La gaussienne 3D dynamique étend d'abord la gaussienne 3D statique au champ dynamique. Cependant, sa capacité à gérer uniquement les scènes à vues multiples restreint considérablement son application dans des situations plus générales, telles que les scènes à vue unique telles que la prise de vue avec un téléphone portable.Idées de recherche
Le cœur de Deformable-GS est d'étendre la gaussienne 3D statique aux scènes dynamiques monoculaires. Chaque gaussienne 3D comporte des coefficients de position, de rotation, d'échelle, d'opacité et SH pour le rendu au niveau de l'image. Selon la formule du mélange alpha gaussien 3D, il n'est pas difficile de constater que la position dans le temps, ainsi que la rotation et la mise à l'échelle qui contrôlent la forme gaussienne sont les paramètres décisifs qui déterminent la gaussienne 3D dynamique. Cependant, contrairement aux méthodes de rendu traditionnelles basées sur des nuages de points, une fois la gaussienne 3D initialisée, les paramètres tels que la position et la transparence seront continuellement mis à jour avec optimisation. Cela ajoute de la difficulté à l'apprentissage des gaussiennes dynamiques.Cette recherche propose de manière innovante un cadre de rendu de scène dynamique optimisé conjointement avec des champs de déformation et des gaussiennes 3D. Plus précisément, cette étude traite les Gaussiennes 3D initialisées par COLMAP ou des nuages de points aléatoires comme un espace canonique, puis utilise le champ de déformation pour utiliser les informations de coordonnées des Gaussiennes 3D dans l'espace canonique comme entrée pour prédire la position et la forme de chaque Gaussienne 3D. au fil du temps. En utilisant des champs de déformation, cette étude peut transformer une gaussienne 3D d'un espace canonique en espace d'observation pour un rendu rastérisé. Cette stratégie n'affecte pas le pipeline de rastérisation différentiable des gaussiennes 3D, et les gradients calculés par celle-ci peuvent être utilisés pour mettre à jour les paramètres des gaussiennes 3D de l'espace canonique.
De plus, l'introduction d'un champ de déformation est bénéfique à la densification gaussienne des pièces ayant des amplitudes de mouvement plus grandes. En effet, le gradient du champ de déformation dans les zones présentant des amplitudes de mouvement plus grandes sera relativement plus élevé, guidant ainsi les zones correspondantes vers une régulation plus fine pendant le processus de densification. Même si les paramètres de nombre et de position des gaussiennes 3D de l'espace canonique sont constamment mis à jour au début, les résultats expérimentaux montrent que cette stratégie d'optimisation conjointe peut éventuellement permettre d'obtenir des résultats de convergence robustes. Après environ 20 000 itérations, les paramètres de position de la gaussienne 3D dans l'espace canonique ne changent pratiquement plus.
L'équipe de recherche a découvert que les poses de caméra dans les scènes réelles ne sont souvent pas assez précises et que les scènes dynamiques exacerbent ce problème. Cela n'aura pas un grand impact sur la structure basée sur le champ de rayonnement neuronal, car le champ de rayonnement neuronal est basé sur le perceptron multicouche (MLP) et constitue une structure très lisse. Cependant, la gaussienne 3D est basée sur la structure explicite des nuages de points, et les poses de caméra légèrement imprécises sont difficiles à corriger de manière robuste grâce aux éclaboussures gaussiennes.
Afin d'atténuer ce problème, cette étude a introduit de manière innovante le Annealing Smooth Training (AST). Ce mécanisme de formation est conçu pour faciliter l'apprentissage des gaussiennes 3D à un stade précoce et augmenter les détails du rendu à un stade ultérieur. L'introduction de ce mécanisme améliore non seulement la qualité du rendu, mais améliore également considérablement la stabilité et la fluidité de la tâche d'interpolation temporelle.
La figure 2 montre le déroulement de cette recherche. Veuillez consulter l'article original pour plus de détails. Figure 2 Le pipeline de cette étude.
Affichage des résultatsCette étude a d'abord mené des expériences sur des ensembles de données synthétiques sur l'ensemble de données D-NeRF, largement utilisé dans le domaine de la reconstruction dynamique. Il n'est pas difficile de voir à partir des résultats de visualisation de la figure 3 que Deformable-GS présente une énorme amélioration de la qualité de rendu par rapport à la méthode précédente. Figure 3 Résultats de comparaison expérimentale qualitative de cette étude sur l'ensemble de données D-NeRF.
La méthode proposée dans cette étude a non seulement permis d'obtenir des améliorations significatives des effets visuels, mais a également apporté des améliorations correspondantes des indicateurs quantitatifs de rendu. Il convient de noter que l'équipe de recherche a trouvé des erreurs dans les scènes Lego de l'ensemble de données D-NeRF, c'est-à-dire qu'il existe de légères différences entre les scènes de l'ensemble d'entraînement et celles de l'ensemble de test. Cela se reflète dans l'angle de retournement incohérent de la pelle modèle Lego. C'est aussi la raison fondamentale pour laquelle les indicateurs de la méthode précédente ne peuvent pas être améliorés dans la scène Lego. Pour permettre des comparaisons significatives, l'étude a utilisé l'ensemble de validation de Lego comme référence pour les mesures métriques. Figure 4 Comparaison quantitative sur des ensembles de données synthétiques.
Comme le montre la figure 4, cette étude a comparé les méthodes SOTA en pleine résolution (800x800), notamment D-NeRF de CVPR 2020, TiNeuVox de Sig Asia 2022 et Tensor4D de CVPR2023, K-planes. La méthode proposée dans cette étude a permis d'obtenir des améliorations substantielles dans divers indicateurs de rendu (PSNR, SSIM, LPIPS) et dans divers scénarios.La méthode proposée dans cette étude est non seulement applicable aux scènes synthétiques, mais permet également d'obtenir des résultats SOTA dans des scènes réelles où la pose de la caméra n'est pas assez précise. Comme le montre la figure 5, cette étude se compare à la méthode SOTA sur l'ensemble de données NeRF-DS. Les résultats expérimentaux montrent que même sans traitement spécial des surfaces hautement réfléchissantes, la méthode proposée dans cette étude peut toujours surpasser NeRF-DS, spécialement conçue pour les scènes hautement réfléchissantes, et obtenir le meilleur effet de rendu.
方法 Figure 5 Comparaison des méthodes de scène réelle.Bien que l'introduction de MLP augmente la surcharge de rendu, grâce à l'implémentation extrêmement efficace de CUDA 3D Gaussian et à notre structure MLP compacte, nous pouvons toujours réaliser un rendu en temps réel. Sur 3090, le FPS moyen de l'ensemble de données D-NeRF peut atteindre 85 (400x400), 68 (800x800).
De plus, cette recherche applique également pour la première fois un pipeline de rastérisation gaussienne différentiable avec propagation en profondeur vers l'avant et vers l'arrière. Comme le montre la figure 6, cette profondeur prouve également que Deformable-GS peut également obtenir des représentations géométriques robustes. La rétropropagation profonde peut promouvoir de nombreuses tâches qui nécessiteront une supervision approfondie à l'avenir, telles que le rendu inverse (Inverse Rendering), le SLAM et la conduite autonome. Figure 6 Visualisation de la profondeur.Le premier auteur de l'article : Yang Ziyi, étudiant en deuxième année de maîtrise à l'Université du Zhejiang. Ses principaux axes de recherche sont le gaussien tridimensionnel, le champ de rayonnement neuronal, le rendu en temps réel, etc.
Autres auteurs de l'article : Gao Xinyu, étudiant en troisième année de maîtrise à l'Université du Zhejiang. Son principal domaine de recherche concerne les champs de rayonnement neuronal et la combinaison de scènes implicites.
Zhang Yuqing : Étudiante en deuxième année de master à l'Université du Zhejiang. Son principal axe de recherche est la génération 3D et le rendu inversé.L'auteur correspondant de l'article est le professeur Jin Xiaogang de l'École d'informatique et de technologie de l'Université du Zhejiang.
E-mail : jin@cad.zju.edu.cnCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!