Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage d'Alibaba est parfaitement générée-IA-php.cn

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage d'Alibaba est parfaitement générée

王林

Mar 01, 2024 am 11:34 AM

产业emo

Avec l'EMO d'Alibaba, il est devenu plus facile de « bouger, parler ou chanter » avec des images générées par l'IA ou réelles.

Récemment, le modèle vidéo Vincent représenté par OpenAI Sora est redevenu populaire.

En plus des vidéos générées par texte, la synthèse vidéo centrée sur l'humain a toujours attiré beaucoup d'attention. Par exemple, concentrez-vous sur la génération vidéo « tête de haut-parleur », où l’objectif est de générer des expressions faciales basées sur des clips audio fournis par l’utilisateur.

Sur le plan technique, générer des expressions nécessite de capturer avec précision les mouvements subtils et divers du visage de l'orateur, ce qui constitue un énorme défi pour des tâches de synthèse vidéo similaires.

Les méthodes traditionnelles imposent généralement certaines limitations pour simplifier la tâche de génération vidéo. Par exemple, certaines méthodes utilisent des modèles 3D pour limiter les points clés du visage, tandis que d'autres extraient des séquences de mouvements de la tête à partir de vidéos brutes pour guider le mouvement global. Si ces limitations réduisent la complexité de la génération vidéo, elles limitent également la richesse et le naturel des expressions faciales finales.

Dans un article récent publié par Ali Intelligent Computing Research Institute, les chercheurs se sont concentrés sur l'exploration du lien subtil entre les signaux audio et les mouvements du visage pour améliorer l'authenticité, le naturel et l'expressivité de la vidéo de la tête de l'orateur.

Les chercheurs ont découvert que les méthodes traditionnelles ne parviennent souvent pas à capturer correctement les expressions faciales et les styles uniques des différents locuteurs. Par conséquent, ils ont proposé le framework EMO (Emote Portrait Alive), qui restitue directement les expressions faciales via une méthode de synthèse audio-vidéo sans utiliser de modèles 3D intermédiaires ni de repères faciaux.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Titre de l'article : EMO : Emote Portrait Alive - Générer des vidéos de portrait expressives avec un modèle de diffusion Audio2Video dans des conditions faibles
Adresse de l'article : https://arxiv.org/pdf/2402.17485.pdf
Page d'accueil du projet : https://humanaigc.github.io/emote-portrait-alive/

En termes d'effet, la méthode d'Ali peut assurer une transition d'image transparente tout au long de la vidéo et maintenir une identité cohérente, produisant ainsi une performance puissante et une vidéo d'avatar de personnage plus réaliste est nettement meilleure que la méthode SOTA actuelle en termes d'expressivité et de réalisme.

Par exemple, EMO peut faire chanter le personnage de Tokyo généré par Sora. La chanson est "Don't Start Now" chantée par la chanteuse binationale britannique et albanaise Dua Lipa. EMO prend en charge les chansons dans différentes langues, dont l'anglais et le chinois. Il peut identifier intuitivement les changements de tonalité de l'audio et générer des avatars de personnages IA dynamiques et expressifs. Par exemple, laissez la jeune femme générée par le modèle de peinture IA ChilloutMix chanter "Melody" de Tao Zhe.

EMO peut également permettre à l'avatar de suivre des chansons de rap au rythme rapide, par exemple en demandant à DiCaprio d'interpréter une section de "Godzilla" du rappeur américain Eminem. Bien sûr, EMO permet non seulement aux personnages de chanter, mais prend également en charge l'audio parlé dans différentes langues, transformant différents styles de portraits, de peintures, ainsi que des modèles 3D et du contenu généré par l'IA en vidéos animées réalistes. Comme le discours d'Audrey Hepburn.

Enfin, EMO peut également créer des liens entre différents personnages, comme Gao Qiqiang qui s'associe au professeur Luo Xiang dans "Cyclone".

Aperçu de la méthode

À partir d'une seule image de référence d'un portrait de personnage, notre méthode peut générer une vidéo synchronisée avec le clip audio vocal d'entrée, conservant les mouvements de tête très naturels et les expressions vives du personnage, et cohérente avec les changements de hauteur de l'audio vocal fourni. . En créant une série transparente de vidéos en cascade, le modèle permet de générer de longues vidéos de portraits parlants avec une identité et un mouvement cohérents, essentiels pour les applications du monde réel. L'aperçu de la méthode

Network Pipeline

est présenté dans la figure ci-dessous. Le réseau fédérateur reçoit plusieurs images d'entrée potentielle de bruit et tente de les débruiter en images vidéo consécutives à chaque pas de temps. Le réseau fédérateur a une configuration structurelle UNet similaire à la version SD 1.5 d'origine, en particulier

comme auparavant, fonctionne de la même manière, afin d'assurer la continuité entre les trames générées, le réseau fédérateur embarque un module temporel.
Afin de maintenir la cohérence d'identification des portraits dans les images générées, les chercheurs ont déployé une structure UNet parallèle au réseau fédérateur, appelée ReferenceNet, qui saisit l'image de référence pour obtenir les caractéristiques de référence.
Afin de piloter les mouvements du personnage lorsqu'il parle, les chercheurs ont utilisé une couche audio pour encoder les caractéristiques sonores.
Afin de rendre les mouvements du personnage parlant contrôlables et stables, les chercheurs ont utilisé des localisateurs de visage et des couches de vitesse pour fournir des conditions faibles.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Pour le réseau fédérateur, les chercheurs n'ont pas utilisé d'intégrations d'indices, ils ont donc ajusté la couche d'attention croisée dans la structure SD 1.5 UNet à la couche d'attention de référence. Ces couches modifiées prendront en entrée les entités de référence obtenues à partir de ReferenceNet au lieu d’incorporations de texte.

Stratégie de formation

Le processus de formation est divisé en trois étapes :

La première étape est la pré-formation à l'image, dans laquelle le réseau fédérateur, ReferenceNet et le localisateur de visage sont intégrés dans le processus de formation. Le réseau fédérateur est formé dans une seule image. En entrée, ReferenceNet traite différentes images sélectionnées de manière aléatoire à partir du même clip vidéo. Backbone et ReferenceNet initialisent les poids à partir du SD brut.

Dans la deuxième étape, les chercheurs ont introduit la formation vidéo, ajouté un module temporel et une couche audio, et échantillonné n+f images consécutives du clip vidéo, les n premières images étant des images animées. Le module time initialise les poids d'AnimateDiff.

La dernière étape intègre la couche vitesse, et le chercheur n'entraîne que le module temps et la couche vitesse dans cette étape. Cette approche vise à ignorer intentionnellement la couche audio pendant la formation. Parce que la fréquence de l'expression, des mouvements de la bouche et de la tête de l'orateur est principalement affectée par l'audio. Par conséquent, il semble y avoir une corrélation entre ces éléments, et le modèle peut piloter le mouvement du personnage en fonction de signaux de vitesse plutôt que d'audio. Les résultats expérimentaux montrent que l’entraînement simultané de la couche vitesse et de la couche audio affaiblit la capacité de l’audio à piloter le mouvement des personnages.

Résultats expérimentaux

Les méthodes comparées au cours de l'expérience incluent Wav2Lip, SadTalker et DreamTalk.

La figure 3 montre les résultats de la comparaison entre cette méthode et les méthodes précédentes. On peut observer que lorsqu'il est fourni avec une seule image de référence en entrée, Wav2Lip synthétise généralement une région buccale floue et génère des vidéos caractérisées par des poses de tête statiques et des mouvements oculaires minimes. Dans le cas de DreamTalk, les résultats peuvent déformer le visage d'origine et également limiter la gamme d'expressions faciales et de mouvements de tête. Par rapport à SadTalker et DreamTalk, la méthode proposée dans cette étude est capable de générer une plus grande gamme de mouvements de tête et des expressions faciales plus vives.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

L'étude explore plus en détail la génération de vidéos d'avatar dans divers styles de portrait, tels que réaliste, anime et 3D. Les personnages ont été animés en utilisant la même entrée audio vocale, et les résultats ont montré que les vidéos résultantes produisaient une synchronisation labiale à peu près cohérente dans les différents styles.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

La figure 5 montre que notre méthode peut générer des expressions faciales et des actions plus riches lors du traitement d'un audio présentant des caractéristiques tonales évidentes. Par exemple, dans la troisième ligne de l’image ci-dessous, un ton aigu déclenchera une expression plus forte et plus vive du personnage. De plus, les images de mouvement vous permettent d'étendre la vidéo générée, c'est-à-dire de générer une vidéo de plus longue durée en fonction de la longueur de l'audio d'entrée. Comme le montrent les figures 5 et 6, notre méthode préserve l'identité du personnage dans des séquences étendues, même lors de grands mouvements.

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Tableau 1 Les résultats montrent que cette méthode présente des avantages significatifs dans l'évaluation de la qualité vidéo :

Laissez la fille de Sora Tokyo chanter, Gao Qiqiang change sa voix en Luo Xiang et la vidéo de synchronisation labiale du personnage dAlibaba est parfaitement générée

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semainesByDDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Version Mac de WebStorm

Outils de développement JavaScript utiles

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7542

Tutoriel CakePHP

1381

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus