


Vous souhaitez concevoir personnellement un visage tridimensionnel très réaliste, mais vous constatez que vous n'êtes pas familier avec les logiciels de conception professionnels ? La méthode d'édition de visages 3D NeRFFaceEditing apporte une nouvelle solution Même si vous ne connaissez pas la modélisation 3D, vous pouvez librement éditer des visages tridimensionnels très réalistes et modéliser des portraits numériques personnalisés dans le métaverse !
NeRFFaceEditing a été réalisé par des chercheurs de l'Institut de technologie informatique de l'Académie chinoise des sciences et de l'Université de la ville de Hong Kong. Des articles techniques connexes ont été publiés lors de la conférence d'infographie ACM SIGGRAPH Asia 2022.
Page d'accueil du projet : http://geometrylearning.com/NeRFFaceEditing/
NeRFFaceEditing utilise des masques sémantiques bidimensionnels comme pont pour l'édition de géométrie tridimensionnelle, permettant aux utilisateurs d'effectuer une édition sémantique à partir de une perspective Peut être propagée à toute la géométrie de la face 3D, en gardant le matériau inchangé. De plus, étant donné une image représentant un style de référence, l'utilisateur peut facilement modifier le style de matériau de l'ensemble du visage 3D tout en gardant la géométrie inchangée.
Le système d'édition de visage 3D basé sur cette méthode permet aux utilisateurs de réaliser facilement une conception de visage personnalisée et de personnaliser la forme et l'apparence du visage même s'ils ne sont pas familiers avec la conception 3D professionnelle. Examinons d'abord deux effets étonnants utilisant NeRFFaceEditing !
Figure 1 Effet d'édition géométrique : l'édition sur le masque sémantique bidimensionnel est propagée à l'ensemble de l'espace géométrique tridimensionnel
Figure 2 Transfert de style effet : le style donné agit sur tout l'espace tridimensionnel du visage tout en conservant la même géométrie
Partie I Contexte
Ces dernières années, avec la combinaison de champs de rayonnement neuronal [1] et de réseaux génératifs adverses [ 2], divers réseaux de génération de visages 3D de haute qualité et à rendu rapide ont été proposés, notamment EG3D [3].
Figure 3 L'effet de génération et la représentation géométrique d'EG3D sous différents angles
La représentation à trois plans de cette méthode combine le réseau contradictoire génératif bidimensionnel traditionnel et les dernières représentation implicite dimensionnelle, par conséquent, il hérite de la puissante capacité de génération et de la capacité de représentation du champ de rayonnement neuronal de StyleGAN [4]. Cependant, ces modèles génératifs ne peuvent pas fournir un contrôle découplé de la géométrie et du matériau du visage humain, fonctionnalité indispensable pour des applications telles que la conception de personnages 3D.
Les travaux existants, tels que DeepFaceDrawing [5] et DeepFaceEditing [6], peuvent réaliser le contrôle du découplage de la géométrie et du matériau basé sur le dessin au trait et la génération et l'édition d'images de visage bidimensionnelles. DeepFaceVideoEditing [7] applique l'édition de dessins au trait aux vidéos de visage, ce qui peut générer de riches effets d'édition dans des séries temporelles.
Cependant, les méthodes de découplage et d'édition d'images sont difficiles à appliquer directement à l'espace tridimensionnel. Cependant, les méthodes de découplage géométrique et matérielle existantes pour les faces tridimensionnelles nécessitent souvent de recycler les paramètres de réseau, et la méthode de représentation spatiale utilisée présente de plus grandes limites et n'a pas les bonnes propriétés de la représentation à trois plans. Afin de résoudre les problèmes ci-dessus, NeRFFaceEditing est basé sur les paramètres du modèle pré-entraîné du réseau contradictoire génératif tridimensionnel représenté par les trois plans, et utilise le masque sémantique bidimensionnel sous n'importe quelle perspective comme support pour réaliser l'édition géométrique. de la face tridimensionnelle et la solution du contrôle du couplage matériau.
Partie 2 Le principe de l'algorithme de NeRFFaceEditing
Une fois que le générateur à trois plans a généré le trois plans, il s'inspire d'AdaIN [8], c'est-à-dire que pour la carte de caractéristiques bidimensionnelle (Feature Map), ses données statistiques peut représenter son style, NeRFFaceEditing décompose trois plans en moyenne et écart type (a) qui expriment des caractéristiques matérielles de haut niveau spatialement invariantes, et trois plans normalisés qui expriment des caractéristiques géométriques spatialement variables. La combinaison des trois plans standardisés et des caractéristiques du matériau décomposé (a) peut restaurer le trois plans d'origine. Par conséquent, étant donné les différentes caractéristiques des matériaux, la même géométrie peut recevoir différents matériaux.
En allant plus loin, afin d'obtenir un contrôle découplé de la géométrie et des matériaux, NeRFFaceEditing décompose le décodeur unique d'origine en un décodeur de géométrie et un décodeur de matériaux. Le décodeur géométrique saisit les caractéristiques, les densités prédites et les étiquettes sémantiques obtenues à partir d'un échantillonnage normalisé à trois plans, et est utilisé pour exprimer le volume du masque géométrique et sémantique (Volume) du visage 3D. Les caractéristiques géométriques et les caractéristiques matérielles (a) sont combinées via le module module de matériau contrôlable (CAM), puis les caractéristiques échantillonnées sont entrées dans le décodeur de matériau pour prédire la couleur. Enfin, grâce au rendu volumique, l'image du visage et le masque sémantique correspondant dans une certaine perspective sont obtenus. Étant donné une caractéristique matérielle différente (b), la caractéristique géométrique et la caractéristique matérielle (b) peuvent être utilisées pour obtenir une autre image de visage avec une géométrie inchangée et un matériau modifié via le module CAM et le rendu de volume. La structure globale du réseau est présentée dans la figure ci-dessous :
Figure 4 Architecture réseau de NeRFFaceEditing
De plus, afin de contraindre les résultats de rendu d'échantillons ayant les mêmes caractéristiques matérielles mais géométrie différente dans le matériau Semblable à ci-dessus, NeRFFaceEditing utilise les masques sémantiques générés et utilise des caractéristiques d'histogramme pour représenter la distribution des couleurs de différents composants du visage, tels que les cheveux, la peau, etc., d'échantillons avec les mêmes caractéristiques matérielles et une géométrie différente. La somme des distances de la répartition des couleurs de ces échantillons sur les composants individuels est alors optimisée. Comme le montre la figure ci-dessous :
Figure 5 Stratégie de formation aux contraintes de similarité matérielle
Partie 3 Affichage des effets et comparaison expérimentale
En utilisant NeRFFaceEditing, vous pouvez utiliser des masques sémantiques bidimensionnels pour identifier des personnes en trois dimensions Édition géométrique dans l'espace du visage :
Figure 6 Édition de la géométrie du visage 3D
De plus, sur la base d'images de référence, migration de style de matériau en trois dimensions cohérentes l'espace dimensionnel peut également être réalisé :
Figure 7 Transfert de style de visage 3D
Sur cette base, une application de déformation par interpolation de visage découplée peut être mise en œuvre, comme le montre la figure ci-dessous, avec le coin supérieur gauche et le coin inférieur droit comme points de départ et d'arrivée, Interpolation linéaire de la caméra, de la géométrie et du matériau :
Figure 8 Affichage de l'effet de déformation du visage découplé
Avec l'aide de PTI [9], l'image réelle est rétroprojetée dans l'espace latent de NeRFFaceEditing. L'édition et le transfert de style d'images réelles peuvent également être réalisés. Grâce à cela, NeRFFaceEditing a également été comparé à d'autres méthodes open source d'édition de visage capables de contrôler l'angle de vue, à savoir SofGAN [10], prouvant la supériorité de la méthode.
Figure 9 Exemple d'édition de géométrie 3D d'images réelles. On peut voir que l'authenticité de NeRFFaceEditing est meilleure que celle de SofGAN, et SofGAN présente certains changements d'identité sous d'autres angles.
Figure 10 Exemple de transfert de style d'image réelle. On peut voir que SofGAN présente certains défauts et présente certains changements d'identité.
Partie 4 Conclusion et remerciements
La génération de contenu numérique est largement utilisée dans les domaines de la production industrielle et des médias numériques, en particulier la génération et l'édition d'humains numériques virtuels, qui ont récemment fait l'objet d'une large attention, et les visages humains 3D. L'édition découplée de la géométrie et des matériaux est une solution possible pour la mise en forme personnalisée d'images virtuelles réelles.
Le système NeRFFaceEditing, en découplant la conception du réseau de génération de visages 3D, peut transformer la modification par l'utilisateur du masque sémantique d'une perspective bidimensionnelle en une modification géométrique de l'ensemble de l'espace tridimensionnel, tout en garantissant que le matériau ne change pas. De plus, grâce à des stratégies de formation qui améliorent l’effet de transfert de style, un transfert efficace de style de matériau dans un espace tridimensionnel peut être obtenu. L'article de NeRFFaceEditing a été accepté par ACM SIGGRAPH ASIA 2022, une conférence de premier plan en infographie.
L'équipe de recherche de ce projet comprend Jiang Kaiwen (premier auteur), un étudiant de premier cycle dans la classe élite de l'Institut de technologie informatique de l'Académie chinoise des sciences, le chercheur associé Gao Lin (auteur correspondant de cet article), le Dr . Chen Shuyu et le professeur Fu Hongbo de la City University de Hong Kong, etc. Plus de mises à jour sur l'article Pour plus de détails, veuillez visiter la page d'accueil du projet :
http://geometrylearning.com/NeRFFaceEditing/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Les scientifiques ont largement étudié les réseaux de neurones humains et plus simples (comme ceux de C. elegans) pour comprendre leur fonctionnalité. Cependant, une question cruciale se pose: comment adapter nos propres réseaux de neurones pour travailler efficacement aux côtés de nouvelles IA

Gémeaux de Google Avancé: nouveaux niveaux d'abonnement à l'horizon Actuellement, l'accès à Gemini Advanced nécessite un plan premium de 19,99 $ / mois / mois. Cependant, un rapport Android Authority fait allusion aux changements à venir. Code dans le dernier Google P

Malgré le battage médiatique entourant les capacités avancées de l'IA, un défi important se cache dans les déploiements d'IA d'entreprise: les goulots d'étranglement du traitement des données. Alors que les PDG célèbrent les progrès de l'IA, les ingénieurs se débattent avec des temps de requête lents, des pipelines surchargés, un

La gestion des documents ne consiste plus à ouvrir des fichiers dans vos projets d'IA, il s'agit de transformer le chaos en clarté. Des documents tels que les PDF, les PowerPoints et les mots inondent nos workflows sous toutes les formes et taille. Récupération structurée

Exploitez la puissance du kit de développement d'agent de Google (ADK) pour créer des agents intelligents avec des capacités du monde réel! Ce tutoriel vous guide à travers la construction d'agents conversationnels en utilisant ADK, soutenant divers modèles de langue comme Gemini et GPT. W

résumé: Le modèle de petit langage (SLM) est conçu pour l'efficacité. Ils sont meilleurs que le modèle de grande langue (LLM) dans des environnements déficientes en ressources, en temps réel et sensibles à la confidentialité. Le meilleur pour les tâches basées sur la mise au point, en particulier lorsque la spécificité du domaine, la contrôlabilité et l'interprétabilité sont plus importantes que les connaissances générales ou la créativité. Les SLM ne remplacent pas les LLM, mais ils sont idéaux lorsque la précision, la vitesse et la rentabilité sont essentielles. La technologie nous aide à réaliser plus avec moins de ressources. Il a toujours été un promoteur, pas un chauffeur. De l'ère de la machine à vapeur à l'ère des bulles Internet, la puissance de la technologie se situe dans la mesure où elle nous aide à résoudre des problèmes. L'intelligence artificielle (IA) et plus récemment l'IA génératrice ne font pas exception

Exploiter la puissance de Google Gemini pour la vision par ordinateur: un guide complet Google Gemini, un chatbot d'IA de premier plan, étend ses capacités au-delà de la conversation pour englober de puissantes fonctionnalités de vision informatique. Ce guide détaille comment utiliser

Le paysage de l'IA de 2025 est électrisant avec l'arrivée de Gemini 2.0 Flash de Google et O4-Mini d'OpenAI. Ces modèles de pointe, lancés à quelques semaines, offrent des fonctionnalités avancées comparables et des scores de référence impressionnants. Cette comparaison approfondie


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),
