Maison  >  Article  >  Périphériques technologiques  >  Dites adieu à l'algorithme 3D Gaussian Splatting, le champ gaussien d'élagage spectral SUNDAE avec compensation neuronale est open source

Dites adieu à l'algorithme 3D Gaussian Splatting, le champ gaussien d'élagage spectral SUNDAE avec compensation neuronale est open source

王林
王林original
2024-06-10 11:17:281055parcourir
Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com


Les auteurs de cet article incluent Yang Runyi, étudiant en maîtrise à l'Imperial College de Londres, Zhu Zhenxin, étudiant en deuxième année de maîtrise à Beihang. University, et Zhu Zhenxin, étudiant de deuxième année de maîtrise à l'Institut de technologie de Pékin, Sheng Jiang Zhou, Ye Baijun, étudiant de quatrième année de premier cycle à l'Institut de technologie de Pékin, Zhang Yifei, étudiant de troisième année de premier cycle à l'Université de Chine Académie des sciences, Zhao Jian, directeur du Laboratoire d'apprentissage cognitif multimédia (EVOL Lab) de l'Institut de recherche sur l'intelligence artificielle de China Telecom, professeur adjoint de l'Institut de recherche sur l'industrie intelligente (AIR) de l'Université Tsinghua, Zhao Hao et autres.

Récemment, le 3D Gaussian Splatting (3DGS), en tant que nouvelle méthode de représentation 3D, a attiré l'attention en raison de sa vitesse de rendu rapide et de sa haute qualité de rendu. Cependant, cette approche s'accompagne également d'une consommation de mémoire élevée. Par exemple, un champ gaussien entraîné peut utiliser plus de trois millions de primitives gaussiennes et plus de 700 Mo de mémoire.

Récemment, Imperial College London, Beihang University, Beijing Institute of Technology, University of Chinese Academy of Sciences, China Telecom Artificial Intelligence Research Institute Multimedia Cognitive Learning Laboratory (EVOL Lab), Tsinghua University Intelligent Industry Research Institute (AIR) et d'autres institutions Les chercheurs ont publié conjointement un article "SUNDAE : Spectraly Pruned Gaussian Fields with Neural Compensation". Nous pensons que cette utilisation élevée de la mémoire est due à l'incapacité de prendre en compte la relation entre les primitives. Dans cet article, nous proposons un
champ gaussien efficace en mémoire nommé SUNDAE utilisant l'élagage spectral et la compensation neuronale
.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

    Articulaire Lien: https://arxiv.org/abs/2405.00676
  • project Page d'accueil: https://runyiyang.github.io/projects/sundae/

一D'une part, nous construisons un graphe basé sur les informations spatiales des primitives gaussiennes pour simuler la relation entre elles, et concevons un module de sous-échantillonnage basé sur le traitement du signal graphique pour élaguer tout en conservant le signal souhaité. D'autre part, pour compenser la dégradation de la qualité causée par l'élagage, nous utilisons un réseau neuronal léger pour mélanger les fonctionnalités de rendu, compensant ainsi efficacement la dégradation de la qualité tout en capturant les relations entre les primitives dans leurs poids.

Nous démontrons les performances de SUNDAE avec des résultats détaillés. Par exemple, sur l'ensemble de données Mip-NeRF360, SUNDAE peut atteindre 26,80 PSNR et 145 FPS en utilisant 104 Mo de mémoire, tandis que l'algorithme standard de projection gaussienne 3D atteint 25,60 PSNR et 160 FPS en utilisant 523 Mo de mémoire.


Dans le même temps, depuis son open source, SUNDAE a reçu une large attention internationale et a été transmis et suivi par la célèbre communauté NeRF MrNeRF, le mainteneur de la communauté de recherche sur l'IA Ahsen Khaliq et de nombreux chercheurs dans des domaines connexes.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

1. Champ gaussien d'élagage spectral avec compensation neuronale

1.1 Stratégie d'élagage basée sur le spectrogramme

3DG S est représenté par un ensemble de scènes primitives gaussiennes, puisque celles-ci Les primitives sont irrégulièrement distribuées dans l'espace tridimensionnel, nous proposons une approche basée sur des graphes pour capturer les relations entre les primitives, au lieu d'utiliser des structures conventionnelles comme les grilles.

Plus précisément, nous utilisons la théorie du traitement du signal graphique pour dériver une stratégie d'échantillonnage optimale qui peut conserver des informations spectrales spécifiques basées sur des signaux graphiques. En contrôlant la bande passante du spectre, nous pouvons contrôler de manière flexible le taux d'élagage et modéliser la relation entre les primitives gaussiennes. Comme le montre la figure 1(c), nous pouvons contrôler l'élagage de 90 % des primitives gaussiennes sans dégrader la qualité du rendu.

Figure 1 : (a) Le résultat des itérations 3DGS 7k ; (b) Le résultat des itérations 3DGS 30k ; Des primitives plus gaussiennes sont utilisées pour représenter la scène tridimensionnelle, donc la qualité est plus élevée, la vitesse est plus lente, et l'espace de stockage est plus grand ; (c) 90 % des primitives gaussiennes sont élaguées, ce qui réduit considérablement l'espace de stockage, mais permet d'obtenir des effets de rendu similaires.

Nous utilisons le centre des primitives gaussiennes comme entrée de signal sur le graphique, et la distance entre les primitives gaussiennes comme bords du graphique. La matrice d'adjacence du graphique peut être exprimée comme

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source est le point central de l'élément gaussien, Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source est un super seuil paramètre , Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source est la variance de la matrice de distance. Autrement dit, si la distance entre deux primitives gaussiennes est inférieure à un seuil, alors nous établissons une arête de graphe entre elles. Après avoir établi la matrice de contiguïté du graphe, nous pouvons traiter le signal sur le graphe selon le filtre de type Haar pour obtenir le signal du graphe dans une bande de fréquence spécifique. Enfin, l'élagage est effectué en fonction du signal de bande de fréquence souhaité. Dans cet article, nous utilisons un filtre coupe-bande pour conserver le signal haute fréquence représentant les détails de l'objet et le signal basse fréquence du point d'arrière-plan.

1.2 Mécanisme de compensation neuronale

Après l'élagage du spectre, la qualité du rendu diminuera inévitablement car trop de primitives gaussiennes sont supprimées. Afin de résoudre ce problème, nous utilisons un réseau de neurones pour compenser cela. perte de qualité, comme le montre la figure 2.

Nous sommes passés du Splatting gaussien au Feature Splatting, en introduisant un réseau neuronal convolutif léger pour produire des primitives gaussiennes mappées aux valeurs RVB sur l'image, fusionnant ainsi les informations de différentes primitives. Cela permet aux poids du réseau de compensation de capturer indirectement la relation entre les primitives dans l'espace image bidimensionnel.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

Figure 2 : Le 3DGS original présenté à gauche nécessite une grande quantité d'espace de stockage car il ne capture pas la relation entre les primitives ; le milieu montre notre stratégie d'élagage du spectre, modélisant la relation des primitives gaussiennes sur le côté droit ; montre la compensation neuronale utilisant des fonctionnalités 2D pour améliorer le rendu.

Plus précisément, au lieu de restituer l'image RVB directement comme 3DGS, nous obtenons une carte de caractéristiques via un rastériseur différenciable pour les gaussiennes 3D, qui convertit les caractéristiques des gaussiennes 3D projetées sur une carte de caractéristiques bidimensionnelle.

Ensuite, nous utilisons un réseau de neurones léger pour modéliser la relation entre les primitives et compenser la dégradation de la qualité après l'élagage spectral. Ce réseau se compose d'un U-Net entièrement convolutif à quatre couches avec connexion par saut, qui regroupe les informations provenant de différentes primitives. Utilisez le regroupement moyen pour le sous-échantillonnage et l’interpolation bilinéaire pour le suréchantillonnage des images. Le réseau prend des cartes de caractéristiques rastérisées en entrée et génère des images RVB.

Le cadre global de SUNDAE est présenté dans la figure 3 ci-dessous.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

Figure 3 : (a) Pipeline : Pour un champ gaussien 3D pré-entraîné, une stratégie d'élagage basée sur un graphique est utilisée pour sous-échantillonner les éléments gaussiens, et un réseau neuronal convolutif est utilisé pour compenser la perte causée par l'élagage. (b) Élagage basé sur un graphique : des graphiques basés sur les relations spatiales entre les primitives gaussiennes sont utilisés pour l'élagage. En utilisant des filtres coupe-bande, ce processus facilite l'extraction d'informations détaillées des composants haute fréquence tout en capturant les caractéristiques générales de la partie basse fréquence, ce qui donne lieu à une représentation complète et efficace de l'ensemble de la scène.

1.3 Stratégie de taille continue

De plus, nous proposons également une stratégie de taille continue pour réduire les pics de stockage, contrairement à la taille post-entraînement, qui part d'une taille entièrement dense. , L'élagage continu implique la suppression périodique d'un nombre ou d'une proportion spécifique de primitives à des intervalles prédéfinis tout au long du processus de formation. Cette approche vise à contrôler en permanence le nombre maximum de primitives lors de l'entraînement des champs gaussiens 3D, réduisant ainsi les besoins maximaux en mémoire pendant l'entraînement et permettant l'entraînement sur des appareils GPU dotés d'une faible mémoire GPU.

L'expérience montre que les avantages d'une mémoire de pointe plus faible se font au détriment d'un contrôle plus faible de l'empreinte mémoire finale. Par exemple, si nous élaguons 20 % des primitives toutes les 2 000 itérations, l’état de convergence final du champ gaussien 3D peut s’écarter de la réduction attendue de 20 %.

De plus, cette variation peut varier selon les scénarios, ajoutant de la complexité à la prévisibilité et à la cohérence des effets d'élagage. Par conséquent, nous considérons la stratégie de taille continue comme une alternative lorsque cela est nécessaire.

2. Résultats expérimentaux

2.1 Résultats quantitatifs

Nous avons comparé SUNDAE avec les algorithmes de pointe 3DGS et NeRF. Par rapport à 3DGS, notre modèle similaire les résultats peuvent être obtenus en utilisant seulement 10 % de la mémoire et peuvent dépasser le 3DGS d'origine en utilisant 30 % ou 50 % de la mémoire. Et il dépasse de loin les autres algorithmes liés au NeRF en termes de FPS.

En effet, notre modèle peut mieux capturer la relation entre les primitives gaussiennes et utiliser moins de primitives gaussiennes pour représenter efficacement la scène tridimensionnelle.
Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source
2.2 Résultats qualitatifs

Comme on peut le voir dans les résultats qualitatifs, nous comparons les résultats qualitatifs de SUNDAE avec 3DGS et InstantNGP à des taux d'échantillonnage de 1% et 10%.

Les résultats qualitatifs montrent que SUNDAE est capable d'obtenir une nouvelle qualité de synthèse de perspective similaire tout en utilisant seulement 10 %, voire 1 % de la consommation de mémoire. Le graphique établit avec succès des relations entre les primitives, tandis que la tête de compensation neuronale maintient efficacement la qualité du rendu. Et comme le montre la quatrième et dernière rangée de la figure 5, l'élagage du spectre est capable de supprimer les objets flottants proches de la caméra.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

2.3 Expérience d'ablation

2.3.1 Filtre coupe-bande

Le rapport du filtre coupe-bande est représenté par un paramètre. Plus précisément, au cours du processus d'élagage basé sur un graphe, nous échantillonnons plusieurs primitives, dont une certaine proportion () de passe-haut et le reste (1-) de passe-bas.

Les résultats montrent que ce paramètre a un impact significatif sur la qualité du rendu, avec un ratio de 50% fournissant les meilleurs résultats, tandis qu'une insistance disproportionnée sur les signaux basse ou haute fréquence entraîne une diminution de la qualité, comme un rapport de 50 %. Il conserve les détails équilibrés des hautes fréquences et l'arrière-plan des basses fréquences, de sorte que l'effet est meilleur.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

2.3.2 Réseau de rémunération

Comme le montre la figure 6 et le tableau 2, nous démontrons l'importance du réseau de rémunération qualitativement et quantitativement. Comme le montre le tableau 2, l'utilisation de la compensation neuronale montre des performances améliorées par rapport à la non-utilisation à tous les taux d'échantillonnage. Ceci est également étayé par les résultats de visualisation présentés dans la figure 6, démontrant la capacité du module à compenser la dégradation des performances causée par l'élagage du spectre. Dans le même temps, il est également prouvé que les relations entre les primitives sont bien capturées.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

Comme le montre le tableau 3, nous avons essayé différentes tailles de réseau de compensation, et l'augmentation de la taille du réseau n'améliore pas nécessairement la qualité du rendu, ce qui est cohérent avec les résultats de l'ADOP, indiquant une tendance similaire. Nous utilisons 30 Mo de UNet à 4 niveaux comme paramètre par défaut pour le meilleur équilibre entre qualité et mémoire.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

2.3.3 Plus de points d'échantillonnage

Comme le montre le tableau 1 ci-dessus, conserver 50% des primitives est mieux que le 3DGS d'origine en termes de qualité de rendu. Nous avons également testé la conservation de 80 % et la conservation de toutes les primitives pour examiner comment le taux d'échantillonnage affecte les résultats finaux, comme le montre le tableau 4.

Les résultats montrent que conserver 80% des primitives améliore la qualité du rendu, montrant une amélioration en termes de LPIPS, mais une petite amélioration visuelle en PSNR et SSIM. Conserver toutes les primitives (et s'entraîner pendant plusieurs époques) n'améliore pas davantage la qualité, ce qui montre également l'importance de la modélisation des relations primitives. Sans modélisation relationnelle efficace, un plus grand nombre de primitives rend difficile la convergence du modèle, et un grand nombre de primitives a un impact négatif sur la représentation de la scène.

De plus, notre objectif était d'équilibrer la qualité du rendu et l'efficacité du stockage ; cependant, augmenter le stockage à 620 Mo pour conserver 80 % des primitives n'a entraîné qu'une légère amélioration de la qualité, réduisant ainsi l'efficacité du stockage.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

2.3.4 Stratégie d'échantillonnage continu

Nous avons testé la stratégie d'échantillonnage continu sur les scénarios Bicycle et Counter dans l'ensemble de données MipNeRF360, en définissant différentes itérations d'intervalles d'élagage et taux d'élagage. Comme le montre le tableau 5, Points est le nombre de primitives après la formation et Ratio est le rapport approximatif entre le nombre de primitives après la formation et le 3DGS d'origine.

Les résultats montrent que cette stratégie peut réduire le pic de mémoire, mais il est difficile de contrôler la mémoire finale (reflétée par les points et le ratio). Par conséquent, nous avons validé notre stratégie d'élagage post-formation, mais proposons toujours la stratégie d'élagage continu comme alternative dans notre boîte à outils open source.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

2.3.5 Évaluation de l'efficacité

Voir le tableau 6 pour plus de détails sur le temps de formation, la mémoire CUDA, la fréquence d'images du rendu et le stockage ROM. Il convient de noter que la version « Ours-50% » atteint la meilleure qualité de rendu dans un temps de formation acceptable (1,41 heures), tout en réalisant un rendu en temps réel et en réduisant considérablement l'utilisation de la mémoire CUDA et du stockage ROM pendant la formation.

Dites adieu à lalgorithme 3D Gaussian Splatting, le champ gaussien délagage spectral SUNDAE avec compensation neuronale est open source

3. Conclusion

Dans ce travail, nous avons proposé un nouveau champ gaussien à élagage spectral SUNDAE avec compensation neuronale pour modéliser la base gaussienne en introduisant le traitement du signal graphique La relation entre les primitives et le mélange des informations de différentes primitives pour compenser la perte d'informations causée par l'élagage.

Nous utilisons les informations spatiales entre les primitives gaussiennes pour créer des graphiques afin de modéliser les relations, et élaguons en fonction des informations spectrales pour supprimer les primitives redondantes. Un réseau de neurones léger est utilisé pour compenser la perte inévitable de qualité de rendu après l'élagage.

Les résultats expérimentaux montrent que SUNDAE réduit considérablement la mémoire, améliore l'efficacité et maintient une qualité de rendu haute fidélité tout en maintenant l'efficacité du 3DGS.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn