Maison >Périphériques technologiques >IA >La recherche en IA peut-elle aussi tirer des leçons de l'impressionnisme ? Ces personnes réalistes sont en réalité des modèles 3D
Le 19ème siècle était la période où le mouvement artistique impressionniste était populaire. Le mouvement était influent dans les domaines de la peinture, de la sculpture, de la gravure et d'autres arts. L'impressionnisme était caractérisé par l'utilisation de coups de pinceau courts et saccadés avec peu de recherche de précision formelle, qui ont ensuite évolué vers le style artistique impressionniste. En bref, les coups de pinceau de l'artiste impressionniste sont inchangés, présentent des caractéristiques évidentes, ne recherchent pas la précision formelle et sont même quelque peu vagues. Les artistes impressionnistes ont introduit les concepts scientifiques de lumière et de couleur dans leurs peintures et ont révolutionné les concepts de couleurs traditionnels.
Dans D3GA, l'auteur a un objectif unique : il espère créer un effet de performance photo-réaliste en faisant le contraire. Afin d'atteindre cet objectif, l'auteur a utilisé de manière créative la technologie d'éclaboussure gaussienne dans D3GA comme un « coup de pinceau segmenté » moderne pour construire la structure et l'apparence des personnages virtuels et obtenir un effet stable et en temps réel.
"Sunrise·Impression" est l'œuvre représentative du célèbre peintre impressionniste Monet.
Afin de créer des images humaines réalistes pouvant générer de nouveaux contenus pour l'animation, la construction d'avatars nécessite actuellement une grande quantité de données multi-vues. En effet, les méthodes monoculaires ont une précision limitée. De plus, les techniques existantes nécessitent un prétraitement complexe, notamment un repérage 3D précis. Cependant, l’obtention de ces données d’enregistrement nécessite une itération et est difficile à intégrer dans un processus de bout en bout. De plus, il existe des méthodes qui ne nécessitent pas d'enregistrement précis et qui sont basées sur les champs de rayonnement neuronal (NeRF). Cependant, ces méthodes sont souvent lentes lors du rendu en temps réel ou rencontrent des difficultés avec l'animation des vêtements.
Kerbl et al. ont proposé une méthode de rendu appelée 3D Gaussian Splatting (3DGS), qui est améliorée sur la base de la méthode de rendu classique Surface Splatting. Comparé aux méthodes de pointe basées sur les champs de rayonnement neuronal, le 3DGS est capable de restituer des images de meilleure qualité à des fréquences d'images plus rapides et sans nécessiter une initialisation 3D très précise.
Cependant, 3DGS a été initialement conçu pour les scènes statiques. À l'heure actuelle, certaines personnes ont proposé la méthode Gaussian Splating basée sur des conditions temporelles, qui peut être utilisée pour restituer des scènes dynamiques. Cette méthode ne peut restituer que ce qui a été observé précédemment et n'est donc pas adaptée pour exprimer un mouvement nouveau ou inédit.
Sur la base du champ de rayonnement neuronal piloté, l'auteur modélise l'apparence et la déformation d'humains 3D, en les plaçant dans un espace normalisé, mais en utilisant des gaussiennes 3D au lieu de champs de rayonnement. En plus de meilleures performances, le Splatting gaussien élimine le besoin d’utiliser l’heuristique d’échantillonnage des rayons de la caméra.
Le problème restant est de définir les signaux qui déclenchent ces déformations de cage. Les technologies de pointe actuelles en matière d'avatars basés sur des pilotes nécessitent des signaux d'entrée denses, tels que des images RVB-D ou même plusieurs caméras, mais ces méthodes peuvent ne pas convenir aux situations où la bande passante de transmission est relativement faible. Dans cette étude, les auteurs utilisent des données plus compactes basées sur des poses humaines, notamment des angles d'articulations squelettiques et des points clés du visage 3D sous forme de quaternions.
En entraînant des modèles spécifiques à chaque individu sur neuf séquences multi-vues de haute qualité couvrant une variété de formes corporelles, de mouvements et de vêtements (sans se limiter aux vêtements intimes), nous pouvons ensuite créer de nouvelles poses pour n'importe quel sujet.
Méthodes actuellement utilisées pour volumétriquer dynamiquement les personnages virtuels, soit mapper les points de l'espace de déformation à l'espace canonique, soit s'appuyer uniquement sur le mappage direct. Les méthodes basées sur le back-mapping ont tendance à accumuler des erreurs dans l'espace canonique car elles nécessitent un back-pass sujet aux erreurs et sont problématiques dans la modélisation des effets dépendants de la perspective.
Par conséquent, l'auteur a décidé d'adopter la méthode de cartographie directe uniquement. D3GA est basé sur 3DGS et étendu via une représentation neuronale et une cage pour modéliser respectivement la couleur et la forme géométrique de chaque partie dynamique du personnage virtuel.
D3GA utilise la pose 3D ϕ, l'intégration du visage κ, le point de vue dk et la cage canonique v (et les caractéristiques de couleur décodées automatiquement hi) pour générer le rendu final C¯ et le rendu de segmentation auxiliaire P¯. L'entrée de gauche est traitée via trois réseaux (ΨMLP, ΠMLP, ΓMLP) par partie de personnage virtuel pour générer un déplacement de cage Δv, des déformations gaussiennes bi, qi, si et une couleur/transparence ci, oi.
Une fois que la déformation en cage a déformé la gaussienne canonique, elles sont pixellisées dans l'image finale via l'équation 9.
D3GA est évalué sur des métriques telles que SSIM, PSNR et la métrique perceptuelle LPIPS. Le tableau 1 montre que D3GA a les meilleures performances en PSNR et SSIM parmi les méthodes qui utilisent uniquement LBS (c'est-à-dire qu'il n'est pas nécessaire de numériser les données 3D pour chaque image) et surpasse toutes les méthodes FFD dans ces indicateurs, juste derrière pour BD. FFD, malgré son mauvais signal d'entraînement et l'absence d'images de test (le DVA a été testé avec les 200 caméras).
La comparaison qualitative montre que D3GA peut mieux modéliser les vêtements que d'autres méthodes de pointe, en particulier les vêtements amples comme les jupes ou les pantalons de survêtement (Figure 4). FFD signifie Free Deformation Mesh, qui contient des signaux d'entraînement plus riches que les maillages LBS (Figure 9).
Par rapport à sa méthode basée sur le volume, la méthode de l'auteur peut séparer les vêtements du personnage virtuel, et les vêtements sont également pilotables. La figure 5 montre que chaque couche de vêtement individuelle peut être contrôlée uniquement par les angles d'articulation osseuse, sans nécessiter un module d'enregistrement de vêtement spécifique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!