Maison >Périphériques technologiques >IA >NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-11-14 15:09:191637parcourir

Depuis que Neural Radiance Fields a été proposé en 2020, le nombre d'articles connexes a augmenté de façon exponentielle. Il est non seulement devenu une branche importante de la reconstruction tridimensionnelle, mais est également progressivement devenu actif à la frontière de la recherche en tant qu'outil important pour l'autonomie. conduite.

NeRF a soudainement émergé au cours des deux dernières années, principalement parce qu'il ignore l'extraction et la mise en correspondance des points caractéristiques, la géométrie et la triangulation épipolaires, le PnP plus l'ajustement du bundle et d'autres étapes du pipeline de reconstruction CV traditionnel, et ignore même la reconstruction, la cartographie et la cartographie du maillage. traçage de la lumière. Apprenez un champ de rayonnement directement à partir d'une image d'entrée 2D, puis produisez une image rendue à partir du champ de rayonnement qui se rapproche d'une vraie photo. En d’autres termes, laissez un modèle 3D implicite basé sur un réseau neuronal s’adapter à l’image 2D à partir d’une perspective spécifiée et lui donner à la fois de nouvelles synthèses de perspective et de nouvelles capacités. Le développement de NeRF est également étroitement lié à la conduite autonome, ce qui se reflète spécifiquement dans l'application de reconstruction de scènes réelles et de simulateurs de conduite autonome. NeRF est efficace pour restituer des images au niveau photo, de sorte que les scènes de rue modélisées avec NeRF peuvent fournir des données d'entraînement très réalistes pour la conduite autonome ; les cartes NeRF peuvent être modifiées pour combiner les bâtiments, les véhicules et les piétons dans divers coins difficiles à capturer dans la réalité. Ce cas peut être utilisé pour tester les performances d’algorithmes tels que la perception, la planification et l’évitement d’obstacles. NeRF est donc une branche de la reconstruction 3D et un outil de modélisation. La maîtrise de NeRF est devenue une compétence indispensable pour les chercheurs en reconstruction ou en conduite autonome.

Aujourd'hui, je vais trier le contenu lié au Nerf et à la conduite autonome Près de 11 articles vous emmèneront explorer le passé et le présent de Nerf et la conduite autonome

1 Le travail pionnier de Nerf

La réécriture ; le contenu est : NeRF : Représentation du champ de rayonnement neuronal des scènes pour la synthèse de vues. Dans le premier article d'ECCV2020

, une méthode Nerf est proposée, qui utilise un ensemble de vues d'entrée clairsemée pour optimiser la fonction de scène à volume continu sous-jacente, obtenant ainsi les derniers résultats de vue pour synthétiser des scènes complexes. Cet algorithme utilise un réseau profond entièrement connecté (non convolutif) pour représenter la scène. L'entrée est une seule coordonnée 5D continue (y compris la position spatiale (x, y, z) et la direction de visualisation (θ, ξ)), et la sortie. est la position spatiale de la densité volumique et du rayonnement d'émission lié à la vue

NERF utilise des images posées en 2D comme supervision. Il n'est pas nécessaire de convoluer l'image. Au lieu de cela, il apprend un ensemble de paramètres implicites en apprenant continuellement le codage de position et en utilisant la couleur de l'image. comme supervision, représentant des scènes 3D complexes. Grâce à la représentation implicite, le rendu sous n'importe quelle perspective peut être réalisé.

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

2.Mip-NeRF 360

Le contenu de recherche du CVPR2020 porte sur les scènes extérieures sans frontières. Parmi eux, Mip-NeRF 360 : le champ de rayonnement neuronal anti-aliasing sans limites est l'un des axes de recherche

Lien papier : https://arxiv.org/pdf/2111.12077.pdf

Bien que le champ de rayonnement neural (NeRF) soit déjà dans l'objet et montrent de bons résultats de composition de vue sur de petites régions délimitées de l'espace, mais ils sont difficiles à obtenir dans des scènes « sans bordure » où la caméra peut pointer dans n'importe quelle direction et le contenu peut exister à n'importe quelle distance. Dans ce cas, les modèles de type NeRF existants produisent souvent des rendus flous ou à faible résolution (en raison d'un déséquilibre dans les détails et à l'échelle des objets proches et distants), sont plus lents à s'entraîner et souffrent d'une mauvaise reconstruction à partir d'un ensemble de petites images. se produisent en raison de l’ambiguïté inhérente à la tâche dans les grandes scènes. Cet article propose une extension de mip-NeRF, une variante de NeRF qui résout les problèmes d'échantillonnage et d'alias, qui utilise le paramétrage de scène non linéaire, la distillation en ligne et un nouveau régulariseur basé sur la distorsion pour surmonter les problèmes causés par les défis illimités. Il permet une réduction de 57 % de l'erreur quadratique moyenne par rapport au mip-NeRF et est capable de générer des vues synthétiques réalistes et des cartes de profondeur détaillées pour des scènes du monde réel très complexes et sans frontières.

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

3.Instant-NGP

Le contenu qui doit être réécrit est : "Expression de scène hybride de voxels explicites et de fonctionnalités implicites (SIGGRAPH 2022)"

Utilisation d'un codage de hachage multi-résolution la primitive neurographique instantanée

doit être réécrite est : Lien : https://nvlabs.github.io/instant-ngp

Jetons d'abord un coup d'œil aux similitudes et aux différences entre Instant-NGP et NeRF :

Également basé sur le rendu de volume
Différent du MLP de NeRF, NGP utilise une grille de voxels paramétrée clairsemée comme expression de scène
Basé sur les dégradés, il optimise la scène et le MLP en même temps (un MLP est utilisé comme décodeur) ; .

On peut voir que le grand framework est toujours le même. La différence la plus importante est que NGP a sélectionné la grille de voxels paramétrée comme expression de scène. Grâce à l'apprentissage, les paramètres enregistrés dans le voxel deviennent la forme de la densité de la scène. Le plus gros problème avec MLP est qu’il est lent. Afin de reconstruire la scène avec une haute qualité, un réseau relativement grand est souvent nécessaire, et il faudra beaucoup de temps pour parcourir le réseau pour chaque point d'échantillonnage. L'interpolation au sein de la grille est beaucoup plus rapide. Cependant, si la grille veut exprimer des scènes de haute précision, elle nécessite des voxels de haute densité, ce qui entraînera une utilisation extrêmement élevée de la mémoire. Considérant qu'il existe de nombreux endroits vides dans la scène, NVIDIA a proposé une structure clairsemée pour exprimer la scène. F2-NeRF

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles ! F2-NeRF : Entraînement rapide sur le terrain à rayonnement neuronal avec trajectoires de caméra gratuites

Lien papier : https://totoro97.github.io /projects/f2-nerf/ NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

propose un nouveau NeRF basé sur une grille, appelé F2-NeRF (Fast Free NeRF), pour une nouvelle synthèse de vue, qui peut atteindre des trajectoires de caméra d'entrée arbitraires et seulement l'entraînement ne prend que quelques minutes. Les cadres de formation NeRF rapides basés sur une grille existants, tels que Instant NGP, Plenoxels, DVGO ou TensoRF, sont principalement conçus pour les scènes délimitées et s'appuient sur la déformation spatiale pour gérer les scènes illimitées. Deux méthodes de déformation spatiale existantes, largement utilisées, ciblent uniquement les trajectoires orientées vers l'avant ou les trajectoires centrées sur un objet à 360°, mais ne peuvent pas gérer des trajectoires arbitraires. Cet article mène une étude approfondie du mécanisme de déformation spatiale pour gérer des scènes illimitées. Nous proposons en outre une nouvelle méthode de déformation spatiale appelée déformation de perspective, qui nous permet de gérer des trajectoires arbitraires dans le cadre NeRF basé sur une grille. Des expériences approfondies montrent que F2-NeRF est capable de restituer des images de haute qualité en utilisant la même déformation de perspective sur deux ensembles de données standard collectés et un nouvel ensemble de données de trajectoire libre.

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

5.MobileNeRF

Application de rendu en temps réel côté mobile, réalisant la fonction de Nerf exportant Mesh, et cette technologie a été adoptée par la conférence CVPR2023 !

MobileNeRF : Exploiter le pipeline de rastérisation de polygones pour un rendu efficace du champ neuronal sur les architectures mobiles. NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles !

Ce qui doit être réécrit est : https://arxiv.org/pdf/2208.00277.pdf

NeRF et le passé et le présent de la conduite autonome, résumé de près de 10 articles ! Le champ de rayonnement neuronal (NeRF) a été prouvé L'incroyable capacité à synthétiser des images de scènes 3D à partir de nouvelles vues. Cependant, ils s’appuient sur des algorithmes de rendu volumétrique spécialisés basés sur le ray marching qui ne correspondent pas aux capacités du matériel graphique largement déployé. Cet article présente une nouvelle représentation NeRF basée sur des polygones texturés qui peut synthétiser efficacement de nouvelles images via des pipelines de rendu standard. NeRF est représenté comme un ensemble de polygones dont la texture représente l'opacité binaire et les vecteurs de caractéristiques. Le rendu traditionnel des polygones à l'aide d'un tampon z produit une image dans laquelle chaque pixel possède des caractéristiques qui sont interprétées par un petit MLP dépendant de la vue exécuté dans le fragment shader pour produire la couleur finale du pixel. Cette approche permet à NeRF d'effectuer un rendu à l'aide d'un pipeline de rastérisation de polygones traditionnel qui fournit un parallélisme massif au niveau des pixels, permettant des fréquences d'images interactives sur diverses plates-formes informatiques, y compris les téléphones mobiles.