Maison > Article > Périphériques technologiques > L'iPhone restitue une pièce de 300 mètres carrés en temps réel, atteignant une précision centimétrique ! Dernière recherche de Google : NeRF n'est pas encore en faillite
Le rendu 3D en temps réel de grandes scènes peut être réalisé avec un ordinateur ou même un téléphone portable.
Chaque coin du salon à la chambre principale, en passant par le débarras, la cuisine et la salle de bain peut être rendu de manière réaliste sur l'ordinateur, tout comme le tournage d'une vraie vidéo.
De plus, vous pouvez également réaliser un rendu de scènes complexes sur un iPhone.
Des chercheurs de Google, Google DeepMind et de l'Université de Tübingen ont récemment proposé une nouvelle technologie SMERF.
Il peut restituer des scènes à grande échelle en temps réel sur divers appareils, notamment les smartphones et les ordinateurs portables.
Adresse papier : https://arxiv.org/pdf/2312.07541.pdf
Essentiellement, SMERF est une méthode basée sur les NeRF qui s'appuie sur le MERF (Memory -Efficient Radiance) plus efficace en mémoire. Des champs).
Actuellement, les champs Radiance sont apparus comme une représentation puissante et facilement optimisée pour la reconstruction et le rendu de scènes 3D photoréalistes du monde réel.
Contrairement aux représentations explicites telles que les maillages et les nuages de points, les champs de rayonnement sont généralement stockés sous forme de réseaux de neurones et rendus à l'aide d'une marche de rayons volumétrique.
Étant donné un budget de calcul suffisamment important, les réseaux de neurones peuvent représenter de manière concise des géométries complexes et des effets dépendants de la vue.
En tant que représentation volumétrique, le nombre d'opérations nécessaires au rendu d'une image se mesure en nombre de pixels plutôt qu'en nombre de primitives (par exemple des triangles), et les modèles les plus performants nécessitent des dizaines de millions de réseaux. évaluations.
Ainsi, les approches en temps réel des champs de rayonnement font des compromis en termes de qualité, de vitesse ou de taille de représentation, et la question reste ouverte de savoir si de telles représentations peuvent rivaliser avec des alternatives telles que le Splatting gaussien.
Dans les dernières recherches, l'auteur propose une méthode évolutive pour obtenir un rendu de grand espace en temps réel plus fidèle que jamais.
SMERF est spécialement conçu pour l'apprentissage de grandes représentations 3D, telles que le rendu de maisons.
Google et d'autres chercheurs ont combiné un schéma de partitionnement de modèle hiérarchique, dans lequel différentes parties de l'espace et les paramètres d'apprentissage sont représentés par différents MERF.
Cela augmente non seulement la capacité du modèle, mais limite également les besoins en calcul et en mémoire. Parce que de grandes représentations 3D comme celle-ci ne peuvent pas être rendues en temps réel avec le NERF classique.
Le système de coordonnées de la scène avec une partition d'espace de coordonnées K=3 et une sous-partition de réseau d'apparition retardée P=4 dans SMERF
Afin d'améliorer la qualité de rendu de SMERF, l'équipe de recherche a également a utilisé une méthode de distillation « enseignant » — étudiant ».
Dans cette méthode, le modèle Zip-Nerf de haute qualité déjà formé (enseignant) est utilisé pour former un nouveau modèle MERF (étudiant).
Comme indiqué ci-dessous, le processus global de « supervision des enseignants ». Le modèle enseignant assure une supervision photométrique par rendu des couleurs et une supervision géométrique par pondération volumétrique le long des rayons de la caméra. L’enseignant et l’élève fonctionnent sur le même ensemble d’intervalles de lumière.
Cette approche permet aux chercheurs de transférer les détails et la qualité d'image de puissants modèles Zip-Nerf vers des structures plus efficaces et plus rapides.
Ceci est particulièrement utile pour les applications sur des appareils moins puissants comme les smartphones et les ordinateurs portables.
Les chercheurs ont d'abord évalué la méthode sur 4 scénarios majeurs introduits par Zip-NeRF : Berlin, Alameda, Londres et New York.
Chacune de ces scènes a été prise à partir de 1 000 à 2 000 photos à l'aide d'un objectif fisheye à 180°. Pour une comparaison complète avec 3DGS, les chercheurs ont recadré les photos à 110° et ont utilisé COLMAP pour réestimer les paramètres de la caméra.
Les résultats présentés dans le tableau 1 montrent que pour les subdivisions spatiales modérées K, la précision des méthodes de pointe dépasse largement MERF et 3DGS.
À mesure que K augmente, la précision de reconstruction du modèle s'améliore et est proche de la précision de son professeur Zip-NeRF. La différence est inférieure à 0,1 PSNR et 0,01 SSIM lorsque K=5.
Les chercheurs ont également constaté que ces améliorations quantitatives sous-estimaient les améliorations qualitatives de la précision de la reconstruction, comme le montre la figure 5.
Dans les grandes scènes, la méthode SMERF modélise systématiquement une géométrie fine, des textures haute fréquence, des reflets spéculaires et du contenu distant hors de portée des lignes de base en temps réel.
Dans le même temps, les chercheurs ont découvert que l'augmentation de la résolution des sous-modèles améliore naturellement la qualité, notamment en termes de textures haute fréquence.
En fait, les chercheurs ont découvert que la dernière méthode de rendu est presque impossible à distinguer du Zip-NeRF, comme le montre la figure 8.
De plus, les chercheurs ont évalué plus en détail la méthode de pointe sur l'ensemble de données mip-NeRF 360 de scènes intérieures et extérieures.
Ces scènes sont beaucoup plus petites que celles de l'ensemble de données Zip-NeRF, donc aucune subdivision spatiale n'est requise pour obtenir des résultats de haute qualité. Comme le montre le tableau 2, la version K=1 du modèle surpasse tous les modèles en temps réel précédents de ce benchmark en termes de qualité d'image et de rendu à une vitesse comparable à celle du 3DGS.
Les figures 6 et 8 illustrent qualitativement cette amélioration, la méthode proposée par les chercheurs étant bien meilleure pour représenter la géométrie et les textures haute fréquence tout en éliminant les corps flottants et le brouillard gênants.
Une fois formé, SMERF peut atteindre 6 degrés de liberté de navigation dans le navigateur et en temps réel sur les smartphones et ordinateurs portables les plus populaires.
Tout le monde sait que la capacité de restituer de grandes scènes 3D en temps réel est importante pour une variété d'applications, notamment les jeux vidéo, la réalité virtuelle augmentée et les applications professionnelles de conception et d'architecture.
Par exemple, dans Google Immersive Maps, la navigation en temps réel est possible.
Cependant, les dernières méthodes proposées par des équipes comme Google présentent également certaines limites. Bien que SMERF ait une excellente qualité de reconstruction et une excellente efficacité de stockage, il souffre d'un coût de stockage élevé, d'un temps de chargement long et d'une lourde charge de travail de formation.
Cependant, cette étude montre que les NeRF et les champs de rayonnement similaires présenteront encore des avantages à l'avenir par rapport aux méthodes d'assemblage gaussien tridimensionnel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!