Maison  >  Article  >  Périphériques technologiques  >  Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage d'Alibaba est parfaitement générée

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage d'Alibaba est parfaitement générée

王林
王林avant
2024-03-01 11:34:02650parcourir

Avec l'EMO d'Alibaba, il est devenu plus facile de « bouger, parler ou chanter » avec des images générées par l'IA ou réelles.

Récemment, le modèle vidéo Vincent représenté par OpenAI Sora est redevenu populaire.

En plus des vidéos générées par texte, la synthèse vidéo centrée sur l'humain a toujours attiré beaucoup d'attention. Par exemple, concentrez-vous sur la génération vidéo « tête de haut-parleur », où l’objectif est de générer des expressions faciales basées sur des clips audio fournis par l’utilisateur.

Sur le plan technique, générer des expressions nécessite de capturer avec précision les mouvements subtils et divers du visage de l'orateur, ce qui constitue un énorme défi pour des tâches de synthèse vidéo similaires.

Les méthodes traditionnelles imposent généralement certaines limitations pour simplifier la tâche de génération vidéo. Par exemple, certaines méthodes utilisent des modèles 3D pour limiter les points clés du visage, tandis que d'autres extraient des séquences de mouvements de la tête à partir de vidéos brutes pour guider le mouvement global. Si ces limitations réduisent la complexité de la génération vidéo, elles limitent également la richesse et le naturel des expressions faciales finales.

Dans un article récent publié par Ali Intelligent Computing Research Institute, les chercheurs se sont concentrés sur l'exploration du lien subtil entre les signaux audio et les mouvements du visage pour améliorer l'authenticité, le naturel et l'expressivité de la vidéo de la tête de l'orateur.

Les chercheurs ont découvert que les méthodes traditionnelles ne parviennent souvent pas à capturer correctement les expressions faciales et les styles uniques des différents locuteurs. Par conséquent, ils ont proposé le framework EMO (Emote Portrait Alive), qui restitue directement les expressions faciales via une méthode de synthèse audio-vidéo sans utiliser de modèles 3D intermédiaires ni de repères faciaux.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

  • Titre de l'article : EMO : Emote Portrait Alive - Générer des vidéos de portrait expressives avec un modèle de diffusion Audio2Video dans des conditions faibles

  • Adresse de l'article : https://arxiv.org/pdf/2402.17485.pdf

  • Page d'accueil du projet : https://humanaigc.github.io/emote-portrait-alive/

En termes d'effet, la méthode d'Ali peut assurer une transition d'image transparente tout au long de la vidéo et maintenir une identité cohérente, produisant ainsi une performance puissante et une vidéo d'avatar de personnage plus réaliste est nettement meilleure que la méthode SOTA actuelle en termes d'expressivité et de réalisme.

Par exemple, EMO peut faire chanter le personnage de Tokyo généré par Sora. La chanson est "Don't Start Now" chantée par la chanteuse binationale britannique et albanaise Dua Lipa. Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement généréeEMO prend en charge les chansons dans différentes langues, dont l'anglais et le chinois. Il peut identifier intuitivement les changements de tonalité de l'audio et générer des avatars de personnages IA dynamiques et expressifs. Par exemple, laissez la jeune femme générée par le modèle de peinture IA ChilloutMix chanter "Melody" de Tao Zhe. Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

EMO peut également permettre à l'avatar de suivre des chansons de rap au rythme rapide, par exemple en demandant à DiCaprio d'interpréter une section de "Godzilla" du rappeur américain Eminem. Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée Bien sûr, EMO permet non seulement aux personnages de chanter, mais prend également en charge l'audio parlé dans différentes langues, transformant différents styles de portraits, de peintures, ainsi que des modèles 3D et du contenu généré par l'IA en vidéos animées réalistes. Comme le discours d'Audrey Hepburn. Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Enfin, EMO peut également créer des liens entre différents personnages, comme Gao Qiqiang qui s'associe au professeur Luo Xiang dans "Cyclone". Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Aperçu de la méthode

À partir d'une seule image de référence d'un portrait de personnage, notre méthode peut générer une vidéo synchronisée avec le clip audio vocal d'entrée, conservant les mouvements de tête très naturels et les expressions vives du personnage, et cohérente avec les changements de hauteur de l'audio vocal fourni. . En créant une série transparente de vidéos en cascade, le modèle permet de générer de longues vidéos de portraits parlants avec une identité et un mouvement cohérents, essentiels pour les applications du monde réel. L'aperçu de la méthode

Network Pipeline

est présenté dans la figure ci-dessous. Le réseau fédérateur reçoit plusieurs images d'entrée potentielle de bruit et tente de les débruiter en images vidéo consécutives à chaque pas de temps. Le réseau fédérateur a une configuration structurelle UNet similaire à la version SD 1.5 d'origine, en particulier

  1. comme auparavant, fonctionne de la même manière, afin d'assurer la continuité entre les trames générées, le réseau fédérateur embarque un module temporel.

  2. Afin de maintenir la cohérence d'identification des portraits dans les images générées, les chercheurs ont déployé une structure UNet parallèle au réseau fédérateur, appelée ReferenceNet, qui saisit l'image de référence pour obtenir les caractéristiques de référence.

  3. Afin de piloter les mouvements du personnage lorsqu'il parle, les chercheurs ont utilisé une couche audio pour encoder les caractéristiques sonores.

  4. Afin de rendre les mouvements du personnage parlant contrôlables et stables, les chercheurs ont utilisé des localisateurs de visage et des couches de vitesse pour fournir des conditions faibles.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Pour le réseau fédérateur, les chercheurs n'ont pas utilisé d'intégrations d'indices, ils ont donc ajusté la couche d'attention croisée dans la structure SD 1.5 UNet à la couche d'attention de référence. Ces couches modifiées prendront en entrée les entités de référence obtenues à partir de ReferenceNet au lieu d’incorporations de texte.

Stratégie de formation

Le processus de formation est divisé en trois étapes :

La première étape est la pré-formation à l'image, dans laquelle le réseau fédérateur, ReferenceNet et le localisateur de visage sont intégrés dans le processus de formation. Le réseau fédérateur est formé dans une seule image. En entrée, ReferenceNet traite différentes images sélectionnées de manière aléatoire à partir du même clip vidéo. Backbone et ReferenceNet initialisent les poids à partir du SD brut.

Dans la deuxième étape, les chercheurs ont introduit la formation vidéo, ajouté un module temporel et une couche audio, et échantillonné n+f images consécutives du clip vidéo, les n premières images étant des images animées. Le module time initialise les poids d'AnimateDiff.

La dernière étape intègre la couche vitesse, et le chercheur n'entraîne que le module temps et la couche vitesse dans cette étape. Cette approche vise à ignorer intentionnellement la couche audio pendant la formation. Parce que la fréquence de l'expression, des mouvements de la bouche et de la tête de l'orateur est principalement affectée par l'audio. Par conséquent, il semble y avoir une corrélation entre ces éléments, et le modèle peut piloter le mouvement du personnage en fonction de signaux de vitesse plutôt que d'audio. Les résultats expérimentaux montrent que l’entraînement simultané de la couche vitesse et de la couche audio affaiblit la capacité de l’audio à piloter le mouvement des personnages.

Résultats expérimentaux

Les méthodes comparées au cours de l'expérience incluent Wav2Lip, SadTalker et DreamTalk.

La figure 3 montre les résultats de la comparaison entre cette méthode et les méthodes précédentes. On peut observer que lorsqu'il est fourni avec une seule image de référence en entrée, Wav2Lip synthétise généralement une région buccale floue et génère des vidéos caractérisées par des poses de tête statiques et des mouvements oculaires minimes. Dans le cas de DreamTalk, les résultats peuvent déformer le visage d'origine et également limiter la gamme d'expressions faciales et de mouvements de tête. Par rapport à SadTalker et DreamTalk, la méthode proposée dans cette étude est capable de générer une plus grande gamme de mouvements de tête et des expressions faciales plus vives.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

L'étude explore plus en détail la génération de vidéos d'avatar dans divers styles de portrait, tels que réaliste, anime et 3D. Les personnages ont été animés en utilisant la même entrée audio vocale, et les résultats ont montré que les vidéos résultantes produisaient une synchronisation labiale à peu près cohérente dans les différents styles.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

La figure 5 montre que notre méthode peut générer des expressions faciales et des actions plus riches lors du traitement d'un audio présentant des caractéristiques tonales évidentes. Par exemple, dans la troisième ligne de l’image ci-dessous, un ton aigu déclenchera une expression plus forte et plus vive du personnage. De plus, les images de mouvement vous permettent d'étendre la vidéo générée, c'est-à-dire de générer une vidéo de plus longue durée en fonction de la longueur de l'audio d'entrée. Comme le montrent les figures 5 et 6, notre méthode préserve l'identité du personnage dans des séquences étendues, même lors de grands mouvements.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Tableau 1 Les résultats montrent que cette méthode présente des avantages significatifs dans l'évaluation de la qualité vidéo :

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer