Maison  >  Article  >  Périphériques technologiques  >  La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à l'héroïne Sora de chanter et rapper avec Li Zi.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à l'héroïne Sora de chanter et rapper avec Li Zi.

王林
王林avant
2024-02-29 19:07:02414parcourir

Après Sora, il existe en fait un nouveau modèle vidéo IA, qui est incroyable et qui fait que tout le monde l'aime comme un fou !

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Avec lui, Gao Qiqiang, le méchant de "Dépêchez-vous" se transforme en Luo Xiang, et il peut éduquer tout le monde (tête de chien).

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Il s'agit du dernier cadre de génération de vidéos de portraits audio d'Alibaba, EMO (Emote Portrait Alive).

Avec lui, vous pouvez générer une vidéo IA avec des expressions vives en saisissant une seule image de référence et un morceau d'audio (discours, chant ou rap). La durée finale de la vidéo dépend de la longueur de l'audio d'entrée.

Vous pouvez demander à Mona Lisa, une candidate expérimentée en effets d'IA, de réciter un monologue :

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Le jeune et beau DiCaprio présente un spectacle de talents rap au rythme effréné, et la forme de sa bouche ne peut pas être maintenue. Question :

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Je peux même tenir le lip sync cantonais, alors j'ai demandé à mon frère Leslie Cheung de chanter "Unconditional" d'Eason Chan :

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Bref, si c'est pour laisser le portrait chanter (différents styles de portraits et de chansons), laisser parler les portraits (dans différentes langues), ou réaliser diverses performances inter-acteurs. L'effet EMO nous a un instant stupéfiés.

Les internautes se sont exclamés : "Nous entrons dans une nouvelle réalité !"

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.La version 2019 de "Joker" reprend les lignes de la version 2008 de "The Dark Knight"

Certains internautes ont même commencé à générer des vidéos de EMO Tirez sur la languette et analysez l'effet image par image.

Comme le montre la vidéo ci-dessous, la protagoniste est la dame IA générée par Sora. La chanson qu'elle a chantée pour vous cette fois est "Don't Start Now".

Tweeters analysés :

La cohérence de cette vidéo est encore meilleure qu'avant !
Dans la vidéo de plus d'une minute, les lunettes de soleil sur le visage de Mme Sora bougent à peine, et ses oreilles et ses sourcils bougent indépendamment.
Le plus excitant, c'est que la gorge de Mme Sora semble vraiment respirer ! Son corps tremblait et bougeait légèrement en chantant, ce qui m'a choqué !

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Cela dit, EMO est une nouvelle technologie en vogue, et il est inévitable de la comparer avec des produits similaires -

Hier encore, la société de génération vidéo IA Pika a également lancé le doublage de vidéo les personnages et la fonction de synchronisation labiale "lip sync" se sont écrasés.

Qu'en est-il de l'effet spécifique ?Nous le mettrons directement ici La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Après comparaison, les internautes de la zone de commentaires sont arrivés à la conclusion qu'ils avaient été battus par Ali.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Pictures

EMO a publié le document et a annoncé qu'il était open source.

Mais ! Bien qu’il soit open source, il existe encore des positions courtes sur GitHub.

Mais encore une fois ! Bien qu'il s'agisse d'une position courte, le nombre d'étoiles a dépassé 2,1 000.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

ont rendu les internautes vraiment anxieux, aussi anxieux que le roi Gigi.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.

Architecture différente de Sora

Dès que le document EMO est sorti, de nombreuses personnes dans le cercle ont poussé un soupir de soulagement.

C'est différent du parcours technique de Sora, qui montre que copier Sora n'est pas le seul moyen.

EMO n'est pas basé sur une architecture de type DiT, c'est-à-dire qu'il n'utilise pas Transformer pour remplacer le UNet traditionnel. Son réseau fédérateur est modifié par rapport à Stable Diffusion 1.5.

Plus précisément, EMO est un cadre de génération vidéo de portrait expressif piloté par audio qui peut générer des vidéos de n'importe quelle durée en fonction de la longueur de la vidéo d'entrée.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Pictures

Le framework se compose principalement de deux étapes :

  • Étape d'encodage de trame

déploie un réseau UNet appelé ReferenceNet, qui est responsable de l'extraction des fonctionnalités des images de référence et des images de vidéos.

  • Étape de diffusion

Tout d'abord, l'encodeur audio pré-entraîné traite l'intégration audio et le masque de région du visage est combiné avec un bruit multi-images pour contrôler la génération d'images de visage.

Ensuite, le réseau fédérateur mène l’opération de débruitage. Deux types d'attention sont appliqués dans le réseau fédérateur, l'attention de référence et l'attention audio, qui servent respectivement à maintenir la cohérence identitaire du personnage et à réguler son mouvement.

De plus, le module temps est utilisé pour manipuler la dimension temporelle et ajuster la vitesse de déplacement.

En termes de données de formation, l'équipe a construit un ensemble de données audio et vidéo vaste et diversifié contenant plus de 250 heures de vidéo et plus de 15 millions d'images.

Les caractéristiques spécifiques de l'implémentation finale sont les suivantes :

  • Peut générer des vidéos de n'importe quelle durée en fonction de l'audio d'entrée tout en garantissant la cohérence de l'identité du personnage (la vidéo la plus longue donnée dans la démonstration est de 1 minute et 49 secondes).
  • Prend en charge le fait de parler et de chanter dans différentes langues (la démo comprend le mandarin, le cantonais, l'anglais, le japonais et le coréen)
  • Prend en charge différents styles de peinture (photos, peintures traditionnelles, bandes dessinées, rendus 3D, personnes numériques IA)

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi. Images

La comparaison quantitative est également grandement améliorée par rapport à la méthode précédente, atteignant SOTA, et n'est que légèrement inférieure à l'indicateur SyncNet qui mesure la qualité de la synchronisation labiale.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Images

Par rapport à d'autres méthodes qui ne reposent pas sur des modèles de diffusion, l'EMO prend plus de temps.

Et comme aucun signal de contrôle explicite n'est utilisé, ce qui pourrait conduire à la génération involontaire d'autres parties du corps telles que les mains, une solution potentielle consiste à utiliser des signaux de contrôle spécifiquement pour les parties du corps.

L'équipe d'EMO

Enfin, jetons un coup d'œil aux membres de l'équipe derrière EMO.

Le document montre que l'équipe EMO vient de l'Alibaba Intelligent Computing Research Institute.

Il y a quatre auteurs, à savoir Linrui Tian, ​​​​Qi Wang, Bang Zhang et Liefeng Bo.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Parmi eux, Liefeng Bo est l'actuel chef du laboratoire XR du laboratoire Alibaba Tongyi.

Le Dr Bo Liefeng est diplômé de l'Université des sciences et technologies électroniques de Xi'an. Il a effectué des recherches postdoctorales au Toyota Research Institute de l'Université de Chicago et à l'Université de Washington. Ses domaines de recherche sont principalement le ML, le CV et la robotique. Ses citations Google Scholar dépassent les 13 000.

Avant de rejoindre Alibaba, il a d’abord occupé le poste de scientifique en chef au siège d’Amazon à Seattle, puis a rejoint le laboratoire d’IA de JD Digital Technology Group en tant que scientifique en chef.

En septembre 2022, Bo Liefeng rejoint Alibaba.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

EMO n'est pas la première fois qu'Alibaba réussit dans le domaine de l'AIGC.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

TenueToute personne disposant d'un changement de tenue en un clic grâce à l'IA.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Pictures

De plus, AnimateAnyone fait danser les chats et les chiens du monde entier dans la danse du bain.

Voici celui ci-dessous :

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Maintenant que l'EMO est lancé, de nombreux internautes déplorent qu'Alibaba ait accumulé une certaine technologie dessus.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Si toutes ces technologies sont combinées maintenant, l'effet...

Je n'ose pas y penser, mais j'ai hâte d'y être.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

En bref, nous nous rapprochons de "envoyer un script à l'IA et sortir le film entier".

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Pictures

One More Thing

Sora, représente une percée dans la synthèse vidéo basée sur le texte.

EMO représente également un nouveau niveau de synthèse vidéo audio.

Bien que les deux aient des tâches différentes et des architectures spécifiques, ils ont quand même une chose importante en commun :

Il n'y a pas de modèle physique explicite au milieu, mais ils simulent tous les deux dans une certaine mesure les lois physiques.

Certaines personnes pensent donc que cela est contraire à l'insistance de Lecun selon laquelle « modéliser le monde pour des actions en générant des pixels est un gaspillage et est voué à l'échec », et soutient l'idée de « modèle mondial basé sur les données » de Jim Fan.

La vidéo IA explose à nouveau ! Photo + voix transformée en vidéo, Alibaba a demandé à lhéroïne Sora de chanter et rapper avec Li Zi.Photos

Diverses méthodes ont échoué dans le passé, mais le succès actuel vient peut-être en réalité des « Leçons amères » écrites par Sutton, le père de l'apprentissage par renforcement, où de grands efforts peuvent produire des miracles.

Permettre à l'IA de découvrir comme les gens, plutôt que de contenir ce que les gens découvrent

Des progrès révolutionnaires sont finalement réalisés en élargissant l'échelle de l'informatique

Article : https://www.php.cn/link/ a717f41c203cb970f96f706e4b12617bGitHub :https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40

Lien de référence :
[1]https://www.php.cn/link /0dd4f2526c7c874d06f19523264f6552

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer