Maison >Périphériques technologiques >IA >La vidéo haute définition n'est pas réelle. Les scènes 3D rendues sur plusieurs photos vous rendent difficile de distinguer l'authenticité.

La vidéo haute définition n'est pas réelle. Les scènes 3D rendues sur plusieurs photos vous rendent difficile de distinguer l'authenticité.

PHPzoriginal: 2024-08-05 20:15:51717parcourir

La vidéo haute définition nest pas réelle. Les scènes 3D rendues sur plusieurs photos vous rendent difficile de distinguer lauthenticité.

Veuillez noter que l'animation ci-dessus est entièrement une scène 3D rendue à partir de plusieurs photos. Il est difficile pour les humains de détecter leurs défauts.

Voyons ensuite comment ce scénario se réalise.

Les grilles et les points sont les représentations de scènes 3D les plus courantes, et parce qu'ils sont explicites, ils sont bien adaptés à une rastérisation rapide basée sur GPU/CUDA. En revanche, les méthodes de pointe du champ de rayonnement neuronal (NeRF) reposent sur une représentation continue de la scène, utilisant souvent des perceptrons multicouches (MLP) optimisés pour le rendu des rayons volumétriques pour synthétiser de nouvelles perspectives sur la scène capturée. Bien que la continuité de ces méthodes facilite l'optimisation, l'échantillonnage aléatoire requis pour le rendu est coûteux et bruyant.

Des chercheurs de l'Université de la Côte d'Azur ont introduit une nouvelle méthode qui peut combiner les avantages de ces deux méthodes : la représentation gaussienne 3D a une qualité visuelle SOAT et est également optimisée en temps d'entraînement, tandis que l'algorithme boule de neige basé sur des tuiles ( splatting basé sur des tuiles) permet d'obtenir un rendu SOTA en temps réel à une résolution de 1080p sur plusieurs ensembles de données.

Adresse papier : https://huggingface.co/papers/2308.04079

L'équipe de recherche s'est fixé un objectif : restituer des scènes tournées avec plusieurs photos en temps réel et obtenir le temps le plus rapide en temps réel typique optimisation des scènes. Bien que la méthode proposée précédemment par Fridovich-Kei et al. ait permis une formation rapide, il était difficile d’obtenir la qualité visuelle obtenue par la méthode SOTA NeRF actuelle, qui nécessitait jusqu’à 48 heures de formation. Il existe également des études proposant des méthodes de champ de rayonnement rapides mais de faible qualité permettant d'obtenir un rendu interactif en fonction de la scène (10 à 15 images par seconde), mais cette méthode ne permet pas d'obtenir un rendu en temps réel à haute résolution.

Voyons ensuite comment cet article est mis en œuvre. La solution de l’équipe de recherche se compose principalement de trois parties.

Tout d'abord, introduisez la gaussienne 3D en tant que représentation de scène flexible et expressive. L'entrée est similaire à la méthode NeRF, c'est-à-dire que la caméra est calibrée à l'aide de la structure à partir du mouvement (SfM) et qu'un ensemble gaussien 3D est initialisé à l'aide d'un nuage de points clairsemé dérivé du processus SfM. De plus, cette étude a pu obtenir des résultats de haute qualité en utilisant uniquement les points SfM comme entrée. Il convient de noter que pour l'ensemble de données synthétiques NeRF, notre méthode peut obtenir des résultats de haute qualité même avec une initialisation aléatoire. La recherche montre que la gaussienne 3D est un bon choix.

Deuxièmement, optimiser les propriétés gaussiennes 3D, à savoir la position 3D, l'opacité ?, la covariance anisotrope et les coefficients d'harmoniques sphériques (SH). Le processus d'optimisation produit une représentation plutôt compacte, non structurée et précise de la scène.

Troisième solution de rendu en temps réel, cette recherche utilise un algorithme de tri GPU rapide. Cependant, grâce à la représentation gaussienne 3D, il est possible d'effectuer un épissage anisotrope tout en respectant l'ordre de visibilité, grâce au tri et au mélange, et en suivant le parcours d'autant d'épissures triées que nécessaire, permettant un retour rapide et précis.

Aperçu des méthodes

En résumé, cet article apporte les contributions suivantes :

Introduction de gaussiennes 3D anisotropes en tant que représentation non structurée de haute qualité des champs de rayonnement ;

Méthode d'optimisation des propriétés gaussiennes 3D, étroitement liée au contrôle adaptatif de la densité pour créer des représentations de haute qualité des scènes capturées ;

Une méthode de rendu différenciable rapide pour les GPU qui prend en compte la visibilité. Des fonctionnalités qui permettent un assemblage anisotrope et une rétropropagation rapide pour des performances élevées. -nouvelle synthèse de vue de qualité.

Expérience

La figure suivante montre la comparaison des effets de la méthode de cet article et des méthodes précédentes.

Les scènes de haut en bas sont les vélos, les jardins, les comptoirs et les pièces de l'ensemble de données Mip-NeRF360 ; les salles de jeux de l'ensemble de données hybrides profonds (pour plus de comparaisons, veuillez lire l'article original). Des différences significatives produites par différentes méthodes ont été marquées sur la figure, comme les rayons du vélo, la vitre de la maison au fond du jardin, le poteau du panier en fer et l'ours en peluche.

On peut observer que la méthode présentée dans cet article présente plus d'avantages dans les détails que les méthodes précédentes.

Vous pouvez voir une différence plus évidente dans la vidéo

De plus, dans la figure 6, nous pouvons voir que même avec 7K itérations (∼ 5 minutes), la méthode de cet article a Capture très bien les détails du train. À 30 000 itérations (∼35 min), les artefacts d’arrière-plan sont considérablement réduits. Pour la scène du jardin, la différence est à peine perceptible, et les itérations 7K (∼8 minutes) sont déjà de très haute qualité.

L'équipe de recherche adopte la méthode suggérée par Mip-NeRF360, divisant l'ensemble de données en parties de formation/test et testant toutes les 8 photos pour effectuer des comparaisons cohérentes et significatives, générant ainsi des indicateurs d'erreur et utilisant les plus couramment utilisées. Les indicateurs standard PSNR, L-PIPS et SSIM dans la littérature sont présentés dans le tableau 1 pour des données détaillées.

Le tableau 1 présente une évaluation quantitative de la nouvelle méthode par rapport aux travaux précédents calculée sur trois ensembles de données. Les résultats marqués de « † » sont directement adoptés de l'article original, et les autres résultats sont les résultats expérimentaux de l'équipe expérimentale.

Score PSNR du NeRF synthétique. On constate que la méthode présentée dans cet article obtient de meilleurs scores dans la plupart des cas, et atteint même le niveau optimal.

Expériences d'ablation

L'équipe de recherche a isolé les différentes contributions et choix d'algorithmes effectués et a construit un ensemble d'expériences pour mesurer leurs effets. Les aspects suivants de l'algorithme ont été testés : initialisation à partir de SfM, stratégie de densification, covariance anisotrope, permettant un nombre illimité de patchs avec gradients, et utilisation d'harmoniques sphériques. Le tableau ci-dessous résume les effets quantitatifs de chaque option.

Jetons un coup d'œil à un effet plus intuitif.

L'utilisation de points SfM pour l'initialisation produira de meilleurs résultats.

Stratégies de densification par ablation dans les deux cas de Clone et Split

Limiter le nombre de points acceptant les dégradés, ce qui a un impact significatif sur la qualité visuelle. A gauche : 10 points de Gauss limitant le gradient reçu. À droite : La méthodologie complète de cet article.

Pour plus de détails, veuillez lire l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

算法 https

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Pourquoi le modèle d’interaction retardée est-il la norme pour la prochaine génération de RAG ?Article suivant：Pourquoi le modèle d’interaction retardée est-il la norme pour la prochaine génération de RAG ?

Articles Liés

Voir plus