Maison > Article > Périphériques technologiques > Grimper le long du câble réseau est devenu une réalité, Audio2Photoreal peut générer des expressions et des mouvements réalistes à travers le dialogue
Lorsque vous et vos amis discutez sur l'écran froid du mobile, vous devez deviner le ton de l'autre personne. Lorsqu'il parle, ses expressions et même ses actions peuvent apparaître dans votre esprit. Il serait évidemment préférable que vous puissiez passer un appel vidéo, mais dans les situations réelles, vous ne pouvez pas passer d'appels vidéo à tout moment.
Si vous discutez avec un ami distant, ce n'est pas via un texte sur écran froid ou un avatar manquant d'expressions, mais une personne virtuelle numérique réaliste, dynamique et expressive. Cette personne virtuelle peut non seulement reproduire parfaitement le sourire, les yeux et même les mouvements subtils du corps de votre ami. Vous sentirez-vous plus gentil et chaleureux ? Il incarne vraiment la phrase « Je vais ramper le long du câble réseau pour vous trouver ».
Ce n'est pas un fantasme de science-fiction, mais une technologie qui peut être réalisée dans la réalité.
Les expressions faciales et les mouvements corporels contiennent une grande quantité d'informations, ce qui affectera grandement la signification du contenu. Par exemple, parler en regardant l'autre partie tout le temps donnera aux gens une sensation complètement différente que de parler sans établir de contact visuel, ce qui affectera également la compréhension du contenu de la communication par l'autre partie. Nous avons une capacité extrêmement fine à détecter ces expressions et mouvements subtils pendant la communication et à les utiliser pour développer une compréhension de haut niveau de l'intention, du niveau de confort ou de la compréhension de l'interlocuteur. Par conséquent, développer des avatars conversationnels très réalistes qui capturent ces subtilités est essentiel pour l’interaction.
À cette fin, des chercheurs de Meta et de l'Université de Californie ont proposé une méthode pour générer des humains virtuels réalistes basés sur l'audio vocal d'une conversation entre deux personnes. Il peut synthétiser une variété de gestes à haute fréquence et de mouvements faciaux expressifs étroitement synchronisés avec la parole. Pour le corps et la main, ils exploitent les avantages d’une approche autorégressive basée sur le VQ et d’un modèle de diffusion. Pour les visages, ils utilisent un modèle de diffusion conditionné par l’audio. Les mouvements prédits du visage, du corps et des mains sont ensuite transformés en humains virtuels réalistes. Nous démontrons que l'ajout de conditions de gestes guidés au modèle de diffusion peut générer des gestes conversationnels plus diversifiés et raisonnables que les travaux précédents.
Les chercheurs affirment qu'ils sont la première équipe à étudier comment générer des mouvements réalistes du visage, du corps et des mains pour les conversations interpersonnelles. Par rapport aux études précédentes, les chercheurs ont synthétisé des actions plus réalistes et plus diversifiées basées sur des méthodes VQ et de diffusion.
Les chercheurs ont extrait des codes d'expression latents à partir de données multi-vues enregistrées pour représenter les visages, et ont utilisé les angles articulaires du squelette cinématique pour représenter les postures du corps. Comme le montre la figure 3, ce système se compose de deux modèles génératifs, qui génèrent des codes d'expression et des séquences de postures corporelles lors de la saisie audio d'une conversation à deux. Le code d'expression et les séquences de poses corporelles peuvent ensuite être rendus image par image à l'aide du Neural Avatar Renderer, qui peut générer un avatar entièrement texturé avec le visage, le corps et les mains à partir d'une vue de caméra donnée.
Il est à noter que les dynamiques du corps et du visage sont très différentes. Premièrement, les visages sont fortement corrélés à l’audio d’entrée, en particulier aux mouvements des lèvres, tandis que les corps sont faiblement corrélés à la parole. Cela se traduit par une diversité plus complexe de gestes corporels dans une entrée vocale donnée. Deuxièmement, puisque les visages et les corps sont représentés dans deux espaces différents, ils suivent chacun des dynamiques temporelles différentes. Les chercheurs ont donc utilisé deux modèles de mouvements indépendants pour simuler le visage et le corps. De cette façon, le modèle facial peut « se concentrer » sur les détails du visage qui sont cohérents avec la parole, tandis que le modèle corporel peut se concentrer davantage sur la génération de mouvements corporels diversifiés mais raisonnables.
Le modèle de mouvement du visage est un modèle de diffusion conditionné sur l'audio d'entrée et les sommets des lèvres générés par un régresseur de lèvres pré-entraîné (Figure 4a). Pour le modèle de mouvement des membres, les chercheurs ont constaté que le mouvement généré par le modèle de diffusion pure, conditionné uniquement par l'audio, manquait de diversité et n'était pas suffisamment coordonné dans la séquence temporelle. Cependant, la qualité s’est améliorée lorsque les chercheurs ont conditionné différentes postures de guidage. Par conséquent, ils ont divisé le modèle de mouvement corporel en deux parties : d'abord, le conditionneur audio autorégressif prédit des poses de guidage grossières à 1 fp (Fig. 4b), puis le modèle de diffusion utilise ces poses de guidage grossières pour remplir des poses à grain fin et élevé. mouvements de fréquence (Fig. 4c). Consultez l'article original pour plus de détails sur les paramètres de la méthode.
Les chercheurs ont évalué quantitativement la capacité d'Audio2Photoreal à générer efficacement des actions de dialogue réalistes basées sur des données réelles. Des évaluations perceptuelles ont également été menées pour corroborer les résultats quantitatifs et mesurer la pertinence d'Audio2Photoreal à générer des gestes dans un contexte conversationnel donné. Les résultats expérimentaux ont montré que les évaluateurs étaient plus sensibles aux gestes subtils lorsque les gestes étaient présentés sur un avatar réaliste plutôt que sur un maillage 3D.
Les chercheurs ont comparé les résultats générés par cette méthode avec trois méthodes de base : KNN, SHOW et LDA basées sur des séquences de mouvements aléatoires dans l'ensemble d'entraînement. Des expériences d'ablation ont été menées pour tester l'efficacité de chaque composant d'Audio2Photoreal sans audio ni gestes guidés, sans gestes guidés mais basés sur l'audio, et sans audio mais basés sur des gestes guidés.
Résultats quantitatifs
Le tableau 1 montre que par rapport aux études précédentes, notre méthode a le score FD le plus bas lors de la génération de mouvement avec la plus grande diversité. Bien que le hasard ait une bonne diversité qui correspond à GT, les segments aléatoires ne correspondent pas à la dynamique de conversation correspondante, ce qui entraîne un FD_g élevé.
La figure 5 montre la diversité des poses de guidage générées par notre méthode. L'échantillonnage P par transformateur basé sur VQ permet la génération de gestes très différents avec la même entrée audio.
Comme le montre la figure 6, le modèle de diffusion apprendra à générer des actions dynamiques, où les actions correspondront mieux à l'audio de la conversation.
La figure 7 montre que le mouvement généré par LDA manque de vitalité et a moins de mouvement. En revanche, les changements de mouvement synthétisés par cette méthode sont plus cohérents avec la situation réelle.
De plus, les chercheurs ont également analysé la précision de cette méthode pour générer des mouvements des lèvres. Comme le montrent les statistiques du tableau 2, Audio2Photoreal surpasse considérablement la méthode de base SHOW, ainsi que les performances après suppression du régresseur labial pré-entraîné dans les expériences d'ablation. Cette conception améliore la synchronisation des formes de la bouche lorsque vous parlez, évite efficacement les mouvements aléatoires d'ouverture et de fermeture de la bouche lorsque vous ne parlez pas, permet au modèle d'obtenir une meilleure reconstruction du mouvement des lèvres et réduit en même temps l'erreur des sommets du maillage facial (grille L2). .
Évaluation qualitative
La cohérence des gestes dans les conversations étant difficile à quantifier, les chercheurs ont utilisé des méthodes d'évaluation qualitatives. Ils ont effectué deux séries de tests A/B sur MTurk. Plus précisément, ils ont demandé aux évaluateurs de regarder les résultats générés par notre méthode et la méthode de base ou la paire vidéo de notre méthode et de la scène réelle, et leur ont demandé d'évaluer quelle vidéo dans laquelle le mouvement semblait le plus raisonnable.
Comme le montre la figure 8, cette méthode est nettement meilleure que la méthode de base précédente LDA, et environ 70 % des évaluateurs préfèrent Audio2Photoreal en termes de grille et de réalisme.
Comme le montre le graphique du haut de la figure 8, par rapport à LDA, l'évaluation de cette méthode par les évaluateurs est passée de « légèrement préfère » à « fortement apprécié ». Par rapport à la situation réelle, la même évaluation est présentée. Pourtant, les évaluateurs ont préféré le produit réel à Audio2Photoreal en termes de réalisme.
Pour plus de détails techniques, veuillez lire l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!