Maison >Périphériques technologiques >IA >Né pour la conduite autonome, Lightning NeRF : 10 fois plus rapide

Né pour la conduite autonome, Lightning NeRF : 10 fois plus rapide

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2024-03-19 18:19:08985parcourir

Écrit ci-dessus et compréhension personnelle de l'auteur

Des recherches récentes ont souligné les perspectives d'application du NeRF dans les environnements de conduite autonome. Cependant, la complexité des environnements extérieurs, associée aux points de vue restreints dans les scènes de conduite, complique la tâche de reconstruction précise de la géométrie de la scène. Ces défis se traduisent souvent par une qualité de reconstruction réduite et des durées de formation et de rendu plus longues. Pour relever ces défis, nous avons lancé Lightning NeRF. Il utilise une représentation de scène hybride efficace qui exploite efficacement les a priori géométriques du lidar dans des scénarios de conduite autonome. Lightning NeRF améliore considérablement les nouvelles performances de synthèse de vues de NeRF et réduit la surcharge de calcul. Grâce à une évaluation sur des ensembles de données du monde réel tels que KITTI-360, Argoverse2 et notre ensemble de données privé, nous démontrons que notre méthode dépasse non seulement l'état de l'art actuel en termes de qualité de synthèse de nouvelles vues, mais améliore également la vitesse d'entraînement. Cinq fois plus rapide et un rendu dix fois plus rapide. Lien H Code : https://gision-sjtu/lightning-insf

为自动驾驶而生，Lightning NeRF：速度提升10倍 Explication détaillée de l'approche de scénario de fonction Lightning Nerf

preliminaries

nerf Function, ces fonctions implicites sont généralement paramétrées par MLP. Il est capable de renvoyer la valeur de couleur c et la prédiction de densité volumique σ d'un point 3D x dans la scène en fonction de la direction de visualisation d. 为自动驾驶而生，Lightning NeRF：速度提升10倍

Pour restituer les pixels, NeRF utilise un échantillonnage de volume hiérarchique pour générer une série de points le long d'un rayon r, puis combine les caractéristiques de densité et de couleur prédites à ces emplacements par accumulation. 为自动驾驶而生，Lightning NeRF：速度提升10倍

Bien que NeRF fonctionne bien dans la synthèse de nouvelles perspectives, son long temps de formation et sa vitesse de rendu lente sont principalement causés par l'inefficacité de la stratégie d'échantillonnage. Pour améliorer l'efficacité du modèle, nous maintenons une occupation de grille grossière pendant la formation et échantillonnons uniquement les emplacements dans le volume occupé. Cette stratégie d'échantillonnage est similaire aux travaux existants et permet d'améliorer les performances du modèle et d'accélérer la formation. 为自动驾驶而生，Lightning NeRF：速度提升10倍

Représentation de scène hybride

La représentation de volume hybride a été optimisée et rendue rapidement à l'aide de modèles compacts. Compte tenu de cela, nous adoptons une représentation en grille de voxels hybride pour modéliser le champ de rayonnement afin d’améliorer l’efficacité. En bref, nous modélisons explicitement la densité volumétrique en stockant σ aux sommets du maillage, tout en utilisant un MLP peu profond pour décoder implicitement la couleur intégrant f dans la couleur finale c. Pour gérer la nature sans frontières des environnements extérieurs, nous divisons la représentation de la scène en deux parties, premier plan et arrière-plan, comme le montre la figure 2. Plus précisément, nous examinons le tronc de la caméra dans chaque image de la séquence de trajectoires et définissons le cadre de délimitation du premier plan de telle sorte qu'il enveloppe étroitement tous les troncs de cône dans le système de coordonnées aligné. La zone d'arrière-plan est obtenue en agrandissant la zone de premier plan le long de chaque dimension.

Représentation de la grille Voxel

. Une représentation de maillage voxel stocke explicitement les propriétés de la scène (par exemple, la densité, la couleur RVB ou les caractéristiques) dans ses sommets de maillage pour prendre en charge des requêtes de fonctionnalités efficaces. De cette façon, pour une position 3D donnée, nous pouvons décoder l'attribut correspondant via interpolation trilinéaire :

为自动驾驶而生，Lightning NeRF：速度提升10倍 avant-plan

. Nous construisons deux maillages de caractéristiques indépendants pour modéliser la densité et l'intégration des couleurs de la région de premier plan. Plus précisément, le mappage de maillage de densité mappe les positions dans un scalaire de densité σ pour le rendu volumétrique. Pour le mappage de maillage intégré aux couleurs, nous instancions plusieurs maillages voxels à différentes résolutions de sauvegarde via une table de hachage pour obtenir des détails plus fins avec une surcharge de mémoire abordable. L'intégration de couleur finale f est obtenue en concaténant les sorties à L niveaux de résolution.

Contexte Bien que la modélisation de premier plan mentionnée précédemment fonctionne pour les champs de rayonnement au niveau des objets, l'étendre à des scènes extérieures illimitées n'est pas triviale. Certaines techniques connexes, telles que NGP, étendent directement leur cadre de délimitation de scène afin que la zone d'arrière-plan puisse être incluse, tandis que GANcraft et URF introduisent un rayonnement de fond sphérique pour résoudre ce problème. Cependant, la première tentative a entraîné un gaspillage de ses fonctionnalités puisque la majeure partie de la zone de sa zone de scène était utilisée pour la scène d'arrière-plan. Pour ce dernier schéma, il peut ne pas être capable de gérer des panoramas complexes dans des scènes urbaines (par exemple des bâtiments vallonnés ou des paysages complexes) car il suppose simplement que le rayonnement de fond dépend uniquement de la direction de la vue.

Pour cela, nous avons mis en place un modèle de maillage d'arrière-plan supplémentaire pour maintenir constante la résolution de la partie de premier plan. Nous adoptons le paramétrage de scène dans [9] comme arrière-plan, qui est soigneusement conçu. Premièrement, contrairement à la modélisation sphérique inverse, nous utilisons une modélisation cubique inverse, de norme ℓ∞, puisque nous utilisons une représentation en grille de voxels. Deuxièmement, nous n'instancions pas de MLP supplémentaire pour interroger la couleur d'arrière-plan afin d'économiser de la mémoire. Plus précisément, nous déformons les points d'arrière-plan 3D en 4D via :