Maison > Article > Périphériques technologiques > Obtenez une femme virtuelle en 3D en 30 secondes avec une seule carte ! Text to 3D génère un humain numérique de haute précision avec des détails de pores clairs, se connectant de manière transparente à Maya, Unity et d'autres outils de production.
ChatGPT a injecté une dose de sang de poule dans l'industrie de l'IA. Tout ce qui était autrefois inimaginable est devenu aujourd'hui une pratique fondamentale.
continue d'attaquer Text-to-3D, considéré comme le successeur de Diffusion(image) et GPT#🎜🎜 #(Texte) , le prochain point chaud frontière dans le domaine de l'AIGC a reçu une attention sans précédent.
Non, un produit appelé ChatAvatar est en phase de test bêta public discret. Il a rapidement attiré plus de 700 000 vues et attention, et est devenu le(Espaces de la semaine) #🎜 🎜 #.
△ChatAvatar prendra également en charge la génération d'images de personnages stylisées en 3D à partir d'une perspective unique/multi- peintures originales en perspective. à la technologie 3D, qui a reçu une large attentionLe modèle 3D généré par la version bêta actuelle peut être directement téléchargé en local avec le matériel PBR. Non seulement cela fonctionne bien, mais plus important encore, c'est
jeu gratuit. Certains internautes se sont exclamés :
C'est tellement cool, j'ai l'impression de pouvoir facilement générer mon propre jumeau numérique.Cela a incité de nombreux internautes à l'essayer et à apporter leurs idées. Certaines personnes ont combiné ce produit avec ControlNet et ont trouvé que l'effet était si délicat et réaliste qu'il était inattendu.
Cet outil Text-to-3D avec un seuil d'utilisation presque nul s'appelle
ChatAvatar, lancé par l'IA domestique Créé par l'équipe technologique Yingmo de l'entreprise. Il est entendu qu'il s'agit du premier produit Text to 3D prêt pour la production au monde. Il peut générer des films et des émissions de télévision à l'aide d'un texte simple, comme le nom d'une star ou l'apparence d'un personnage souhaité. . Actifs humains numériques hyper-réalistes de niveau 3D.
L'efficacité est également très élevée. Il ne faut que 30 secondes en moyenne pour créer un visage qui semble réel, même le vôtre.
À l'avenir, le domaine de la génération s'étendra également à d'autres actifs tridimensionnels.
De plus, le modèle a une topologie régulière, un matériau PBR avec une résolution 4k et une liaison. Il peut être directement connecté au pipeline de production de moteurs de production tels que Unity, Unreal Engine et Maya.
Alors, quel genre d'outil de génération 3D est ChatAvatar ? Quelle technologie est utilisée derrière cela ?
Terminez la "peinture" en 30 secondes
Concrètement, il vous suffit de décrire vos besoins à ChatBot en langue vernaculaire
sous forme de conversation,sur le site officiel, et vous pouvez générer des visages 3D à la demande, et « peau humaine » réaliste recouvrant un modèle ajusté. Pendant tout le processus de conversation, ChatBot
guideraen fonction des besoins de l'utilisateur pour comprendre ses réflexions sur le modèle requis de manière aussi détaillée que possible.
Au cours de l'expérience, nous avons décrit à ChatBot une telle image 3D que nous souhaitons générer :
# 🎜🎜#Cliquez sur le bouton Générer à gauche. En moins de 10 secondes en moyenne, les premiers prototypes de 9 visages 3D différents générés à partir de la description apparaîtront à l'écran.
Après avoir sélectionné l'un d'entre eux, le modèle et le matériau continueront à être optimisés en fonction de la sélection. Enfin, le résultat du rendu du modèle après avoir recouvert la peau apparaîtra, ainsi que l'effet de rendu sous différentes lumières et ombres. s'affichera - ces rendus se font dans le navigateur Réalisé en temps réel :Faites glisser avec la souris, vous pouvez également faire pivoter la tête et zoomer pour voir plus en détail les effets locaux, les pores et l'acné sont bien visibles :
Il est à noter que si l'utilisateur est un expert en ingénierie rapide, il peut également terminer la génération en saisissant directement l'invite dans la case de gauche.
Enfin, en un clic de téléchargement, vous pouvez obtenir une tête numérique 3D directement connectée au moteur de production et pilotable :
#🎜🎜 #
Bien que la version bêta n'ait pas encore lancé la fonction coiffure, dans l'ensemble, les ressources humaines numériques 3D finales générées et le contenu de la description présentent un degré élevé de correspondance. Le site officiel affiche également de nombreux atouts générés par les utilisateurs de ChatAvatar, avec différentes races, différentes couleurs de peau, différents âges, joies et peines, beauté, laid, gros et mince, et toutes sortes de looks. Résumez les points forts du produit ChatAvatar pour générer des actifs humains numériques 3D : Tout d'abord, utilisez #🎜🎜 # Simple; deuxièmement, a une grande durée de génération, et les traits du visage peuvent être modifiés , et il peut également générer des masques, des tatouages, etc. qui s'adaptent au visage, comme celui-ci : # 🎜🎜#
Selon la vidéo promotionnelle officielle, ChatAvatar peut encore générer des personnages au-delà de la catégorie humaine, tels que des personnages de cinéma et de télévision des œuvres telles qu'Avatar :
# 🎜🎜#
Le plus important est que ChatAvatarrésout les problèmes de compatibilité entre les modèles 3D et le rendu traditionnel logiciel.
Cela signifie que les actifs 3D générés par ChatAvatar peuvent être directement intégrés dans les processus de production de jeux et de films et de télévision. Bien sûr, avant d'être officiellement connecté au processus industriel, ChatAvatar a attiré des milliers d'artistes et de professionnels de l'art pour participer à la première série de tests bêta publics, et des sujets connexes sur Twitter en ont reçu près d'un. millions de vues et d'attention.
N'importe quel tweet peut avoir plus de 50 000 vues.
Ce n'est pas pour rien que j'ai accumulé beaucoup « d'eau du robinet ». Regardez le visage 3D d'Einstein, qui ne dit pas ça. ça y ressemble vraiment ? S'il est combiné avec ControlNet, l'effet généré n'est pas inférieur à celui d'une photo reflex numérique prise directement :#🎜 🎜##🎜🎜 #
Après que de nombreux utilisateurs l'aient expérimenté, ils ont commencé à imaginer appliquer cet outil Text-to-3D à grande échelle à des applications industrielles telles que les jeux, le cinéma et la télévision. Il est entendu que les commentaires des utilisateurs deviendront une base importante pour que l'équipe ChatAvatar puisse itérer et mettre à jour rapidement, formant un volant de données pour fournir des fonctions plus complètes et basées sur la demande en temps opportun.En fait, pour les anciens concepteurs ou entreprises de l'industrie 3D, la plupart des applications d'IA de synthèse texte en 3D ne sont pas inefficaces, mais elles restent très difficiles à mettre en œuvre dans le processus de conception industrielle.
Quelles sont les raisons techniques pour lesquelles ChatAvatar a pu faire une telle apparition cette fois-ci ? Quelle est la difficulté de générer des actifs 3D répondant aux exigences de l'industrie ?On dit que l'IA remplacera les humains. En fait, il n'est pas si facile de la remplacer uniquement dans le domaine du Text-to-3D.
La plus grande difficulté est de faire en sorte que les éléments générés par l'IA répondent aux exigences de l'industrie en matière d'actifs 3D de la
normeComment comprenez-vous la
Industry Standardici ? Du point de vue de la conception artistique 3D professionnelle, il y a au moins trois aspects : Qualité, contrôlabilité et vitesse de génération.
La première chose est la qualité. En particulier pour les industries du cinéma, de la télévision et du jeu qui mettent l'accent sur les effets visuels, afin de générer des actifs 3D répondant aux exigences du pipeline, les « règles tacites de l'industrie » telles que la régularité topologique et la précision du mappage de texture sont les premières étapes à suivre pour les produits d'IA. Hom.
Prenons l'exemple de la régularité de la structure topologique. Cela fait essentiellement référence au caractère raisonnable du routage des actifs 3D.
Pour les ressources 3D, la régularité de la topologie affecte souvent directement l'effet d'animation, l'efficacité du traitement de modification et la vitesse de dessin de la texture de l'objet :
Selon l'introduction de la conception artistique 3D de l'industrie, le coût en temps de la retopologie manuelle est souvent plus élevé que cela de rendre le modèle 3D lui-même plus haut, même en multiples. Cela signifie que peu importe la fraîcheur des actifs 3D générés par le modèle IA, si la régularité topologique générée ne répond pas aux exigences, le coût ne peut pas être fondamentalement réduit. Sans parler de la précision des textures.
△Le projet ChatAvatar de Shadow Eye Technology a considérablement amélioré la qualité, la vitesse et la compatibilité standard de la génération par rapport aux travaux précédents
Prenons comme exemple les textures PBR couramment requises par les industries actuelles du jeu, du cinéma et de la télévision. , y compris Une série de cartes telles que la carte de réflectivité et la carte normale sont équivalentes aux « couches » de fichiers PSD d'images 2D et sont l'une des conditions indispensables à la production de pipelines d'actifs 3D.
Cependant, les actifs 3D actuels générés par l'IA forment souvent un « tout », et il est rare de pouvoir générer indépendamment des effets de texture PBR qui répondent aux besoins de l'environnement industriel.
La seconde est la contrôlabilité. Pour l'IA générative, comment rendre le contenu généré plus « contrôlable » est une autre exigence majeure mise en avant par l'industrie du CG pour cette technologie.
Prenons l'exemple de la célèbre industrie 2D. Avant l'émergence de ControlNet, l'industrie de l'AIGC 2D était dans un état de « progrès semi-obscur ».
En d'autres termes, l'IA peut générer des images d'objets de catégories spécifiées, mais ne peut pas générer d'objets de postures spécifiées. L'effet de génération dépend entièrement de l'ingénierie rapide et de la « métaphysique ».
Après l'émergence de ControlNet, la contrôlabilité de la génération d'images IA 2D a été améliorée à pas de géant. Cependant, pour l'IA 3D, afin de générer des actifs avec les effets correspondants, cela dépend encore dans une large mesure de l'ingénierie rapide professionnelle.
La dernière chose est la vitesse de génération. Par rapport à la conception artistique 3D, l’avantage de la génération IA est la rapidité. Cependant, si la vitesse et l’effet du rendu IA ne peuvent pas égaler ceux du rendu manuel, alors cette technologie ne pourra toujours pas apporter d’avantages à l’industrie.
Prenons comme exemple le NeRF, actuellement très populaire dans la technologie de l'IA, son industrialisation est confrontée à des problèmes de compatibilité de rapidité et de qualité.
Lorsque la qualité de la génération est élevée, la génération 3D basée sur NeRF prend souvent beaucoup de temps ; cependant, si la vitesse est recherchée, même les actifs 3D générés par NeRF ne peuvent pas du tout être utilisés industriellement.
Mais même si ce problème est résolu, comment rendre NeRF compatible avec les moteurs grand public de l'industrie traditionnelle du CG sans perdre en précision reste un énorme problème.
Il n'est pas difficile de découvrir à partir du processus de normalisation industrielle ci-dessus qu'il existe deux goulots d'étranglement majeurs dans la mise en œuvre de la plupart des applications de texte IA dans les applications 3D :
L'un est que le projet d'invite doit être complété manuellement , ce qui est difficile pour les non-professionnels de l'IA ou pour ceux qui ne comprennent pas que l'IA n'est pas assez conviviale pour les concepteurs ; une autre raison est que les ressources 3D générées ne répondent souvent pas aux normes de l'industrie et ne peuvent pas être utilisées même si elles semblent bonnes.
En réponse à ces deux points, ChatAvatar a apporté deux solutions spécifiques et efficaces.
D'une part, ChatAvatar réalise une deuxième voie en plus de l'ingénierie des invites de saisie manuelle, et constitue également un raccourci plus adapté aux gens ordinaires : décrire les besoins par le biais d'un dialogue direct via le « Mode Partie A ».
Le Twitter officiel de l'équipe indique que pour réaliser cette fonctionnalité, ChatAvatar a développé une méthode de conversion des descriptions conversationnelles en fonctionnalités de portrait basées sur les capacités de GPT.
Les concepteurs n'ont qu'à continuer à discuter avec GPT et à décrire le « sentiment » qu'ils souhaitent :
GPT peut automatiquement aider à terminer le projet d'invite et envoyer les résultats à l'IA :
En d'autres termes, si ControlNet est le "Game Changer" de l'industrie 2D, alors pour l'industrie 3D, ChatAvatar, qui peut convertir du texte en 3D, équivaut à un changeur de jeu dans l'industrie.
D'un autre côté, le plus important est que ChatAvatar est parfaitement compatible avec le pipeline CG, c'est-à-dire que les actifs générés répondent aux exigences de l'industrie en termes de topologie, de contrôlabilité et de vitesse.
Cela signifie non seulement qu'après avoir généré des ressources 3D, le contenu téléchargé peut être directement importé dans divers logiciels de post-production pour un montage secondaire, avec une plus grande contrôlabilité ; #Dans le même temps, les modèles générés et les cartes de matériaux de haute précision peuvent également obtenir des effets de rendu extrêmement réalistes lors des rendus ultérieurs.
Afin d'obtenir un tel effet, l'équipe a développé un framework de génération 3D progressive DreamFace pour ChatAvatar.
La clé réside dans les données sous-jacentes utilisées pour entraîner le modèle, qui sont les
collectées par Shadow Eye Technology sur la base du "dôme light field" Le premier ensemble de données faciales à grande échelle, de haute précision et multi-expressions de haute précision au monde. Sur la base de cet ensemble de données, DreamFace peut terminer efficacement la génération d'
actifs 3D au niveau du produit, c'est-à-dire que les actifs générés ont une topologie, des matériaux et des liaisons réguliers. DreamFace comprend principalement trois modules : la génération de géométrie, la diffusion de matériaux basée sur la physique et la génération de capacités d'animation.
En introduisant une base de données 3D externe, DreamFace peut directement produire des actifs conformes au processus CG.
△L'effet du rendu généré par les actifs
# 🎜 🎜#La solution aux deux principaux goulots d'étranglement techniques ci-dessus a essentiellement accéléré la tendance de l'époque sous la tendance AIGC, où la "génération" remplacera la "recherche" - L'équipe Yingmu estime que " génération" deviendra une nouvelle génération de méthodes d'acquisition d'actifs numériques. Auparavant, lorsque nous avions besoin de trouver une image ou un élément qui répondait à nos besoins, nous utilisions généralement les moteurs de recherche pour effectuer une requête. L'immense « champ de recherche » et les fiches d'actifs soignées affichées sur la page d'accueil du projet ChatAvatar ressemblent à un moteur de recherche, mais sont en réalité un moyen de trouver des actifs complètement différent de la recherche.△Page d'accueil du projet ChatAvatar
Le directeur technique de Yingmu Technology, Zhang Qixuan, a présenté ceci : Précédemment, si nous avons besoin d'une illustration, nous devrons peut-être effectuer des recherches répétées dans plusieurs bibliothèques ou utiliser des méthodes plus complexes telles que la synthèse Photoshop ou la peinture à la main pour obtenir le résultat. Mais après l'émergence de technologies telles que Stable Diffusion, il suffit de décrire l'image souhaitée par le texte, et vous pouvez directement générer des résultats qui répondent à vos besoins. Cela a un impact énorme sur les bibliothèques d'actifs traditionnelles. L'objectif de ChatAvatar est de remplacer la bibliothèque d'actifs 3D traditionnelle basée sur la recherche par la génération 3D. La prochaine frontière dans le domaine de l'AIGC ChatGPT a soulevé des vagues d'une pierre Après être entré dans l'ère de l'IA 2.0, l'attention des gens se porte également sur l'information, notamment. images, vidéos, 3D et autres informations. En ce qui concerne le domaine de la génération 3D, qu'il s'agisse de l'industrie du cinéma, de la télévision ou du jeu, le marché de la production et de la consommation de contenu 3D est déjà assez vaste, mais au niveau de la production, il est entravé par des difficultés techniques. Par exemple, Transformer, très populaire dans le domaine du texte, a une utilisation relativement limitée dans le domaine de la génération 3D. L'été dernier, lorsque文生图
a obtenu des résultats grâce au modèle de diffusion, les gens ont commencé à s'attendre à ce queText Generation 3D ait les mêmes performances étonnantes . Une fois que la technologie de création 3D de l’IA générative aura mûri, la création de contenu tel que la réalité virtuelle et la vidéo décollera.
△ "Van Gogh Wind Photography" généré par le modèle de diffusion Midjourney5.1
En fait, tant les géants de la technologie que les start-up travaillent en effet secrètement dans le sens du Text-to-3D. En septembre de l'année dernière, Google a publié FreamFusion, qui génère des modèles 3D basés sur des invites de texte, affirmant qu'il ne nécessite pas de données d'entraînement 3D ni de modification du modèle de diffusion d'image. Dans la foulée, Meta a également lancé le modèle Make-A-Video qui permet de générer des vidéos à partir de texte en un seul clic. Plus tard, dans l'équipe de modèles d'IA Text-to-3D, NVIDIA Magic3D, le dernier projet open source d'OpenAI, Shap-E, etc. sont apparus. La meilleure conférence d'infographie SIGGRAPH 2023 aura lieu en août prochain. année, de nombreux articles liés au Text-to-3D sont également exposés. L'article de Yingmo Technology sur DreamFace, un framework de génération 3D progressive guidé par texte, en fait partie. Et ChatAvatar est de loin le produit de modélisation le plus génératif axé sur les actifs humains numériques 3D.La startup d'IA derrière
影视科技 a été incubée par le laboratoire MARS de l'Université des sciences et technologies de Shanghai en 2020. Après sa création, elle a reçu deux cycles d'investissement de Qiji Chuangtan et graines de séquoia.
L'entreprise se concentre sur la recherche et la production d'infographie et d'IA générative. En 2021, avant que l'AIGC ne fasse d'énormes vagues, la société avait déjà lancé Wand, la première application de peinture AIGC ToC en Chine, et le produit était autrefois en tête de la partition de l'AppStore.
Et cette équipe tournée vers l'avenir et déjà bien connue dans l'industrie, l'âge moyen n'est que de 25 ans#🎜 🎜#.
Après avoir spécifiquement ancré le premier scénario de commercialisation sur les personnes numériques, ChatAvatar est leur dernière avancée dans cette direction en profitant de l'AIGC. En tant que produit nouvellement lancé, ChatAvatar a dépassé les attentes de l'équipe Shadow Eye en termes d'effets de produit tels que la compatibilité, l'achèvement et la précision. Cependant, selon les mots de Wu Di, le processus pour arriver ici était « très embarrassant ». La raison principale n'est rien d'autre que le "manque de monde". À l'heure actuelle, Shadow Eye a progressé dans la technologie de génération 3D multicatégories, et la prochaine étape consiste à lancer des « grands modèles générés en 3D ».△ombre Moo Technology lancera le premier moteur de recherche 3D multiplateforme multimodal Rodin en mai, qui ouvrira plusieurs plates-formes d'actifs 3D telles que Sketchfab et prendra en charge la recherche de 3D via du texte, de 3D via des images et même de 3D via 3D. Le moteur de recherche n'est que la forme principale de Rodin, et Shadow Eye construira Rodin dans un grand modèle généré en 3D. Pour continuer à avancer, davantage d'équipes d'ingénierie, d'artistes techniques et de talents produits qui adoptent l'IA générative sont nécessaires pour rejoindre l'équipe. En tant qu’équipe dont la R&D est la principale expérience, ces talents sont encore rares. "Les gens sont la mesure de toutes choses", a déclaré Wu Di, "Nous avons besoin de plus de personnes partageant les mêmes idées pour nous rejoindre et promouvoir conjointement le développement innovant dans le domaine de la 3D
#🎜." 🎜#Vous pouvez voir, la technologie derrière ChatAvatar a été construite à partir de zéro, révélant l'innovation continue d'une start-up d'IA et le désir de l'entreprise pour les talents, petits et grands, elle a également révélé que sous la vague de l'AIGC, chaque segment veut partir d'Un cœur qui fait surface sous l'eau.
Êtes-vous prêt à adopter l'IA générative et à changer la donne dans le domaine du Text-to-3D ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!