


Après Sora, il existe en fait un nouveau modèle vidéo IA, qui est incroyable et qui fait que tout le monde l'aime comme un fou !
Photos
Avec lui, Gao Qiqiang, le méchant de "Dépêchez-vous" se transforme en Luo Xiang, et il peut éduquer tout le monde (tête de chien).
Il s'agit du dernier cadre de génération de vidéos de portraits audio d'Alibaba, EMO (Emote Portrait Alive).
Avec lui, vous pouvez générer une vidéo IA avec des expressions vives en saisissant une seule image de référence et un morceau d'audio (discours, chant ou rap). La durée finale de la vidéo dépend de la longueur de l'audio d'entrée.
Vous pouvez demander à Mona Lisa, une candidate expérimentée en effets d'IA, de réciter un monologue :
Le jeune et beau DiCaprio présente un spectacle de talents rap au rythme effréné, et la forme de sa bouche ne peut pas être maintenue. Question :
Je peux même tenir le lip sync cantonais, alors j'ai demandé à mon frère Leslie Cheung de chanter "Unconditional" d'Eason Chan :
Bref, si c'est pour laisser le portrait chanter (différents styles de portraits et de chansons), laisser parler les portraits (dans différentes langues), ou réaliser diverses performances inter-acteurs. L'effet EMO nous a un instant stupéfiés.
Les internautes se sont exclamés : "Nous entrons dans une nouvelle réalité !"
La version 2019 de "Joker" reprend les lignes de la version 2008 de "The Dark Knight"
Certains internautes ont même commencé à générer des vidéos de EMO Tirez sur la languette et analysez l'effet image par image.
Comme le montre la vidéo ci-dessous, la protagoniste est la dame IA générée par Sora. La chanson qu'elle a chantée pour vous cette fois est "Don't Start Now".
Tweeters analysés :
La cohérence de cette vidéo est encore meilleure qu'avant !
Dans la vidéo de plus d'une minute, les lunettes de soleil sur le visage de Mme Sora bougent à peine, et ses oreilles et ses sourcils bougent indépendamment.
Le plus excitant, c'est que la gorge de Mme Sora semble vraiment respirer ! Son corps tremblait et bougeait légèrement en chantant, ce qui m'a choqué !
Photos
Cela dit, EMO est une nouvelle technologie en vogue, et il est inévitable de la comparer avec des produits similaires -
Hier encore, la société de génération vidéo IA Pika a également lancé le doublage de vidéo les personnages et la fonction de synchronisation labiale "lip sync" se sont écrasés.
Qu'en est-il de l'effet spécifique ?Nous le mettrons directement ici
Après comparaison, les internautes de la zone de commentaires sont arrivés à la conclusion qu'ils avaient été battus par Ali.
Pictures
EMO a publié le document et a annoncé qu'il était open source.
Mais ! Bien qu’il soit open source, il existe encore des positions courtes sur GitHub.
Mais encore une fois ! Bien qu'il s'agisse d'une position courte, le nombre d'étoiles a dépassé 2,1 000.
Photos
ont rendu les internautes vraiment anxieux, aussi anxieux que le roi Gigi.
Architecture différente de Sora
Dès que le document EMO est sorti, de nombreuses personnes dans le cercle ont poussé un soupir de soulagement.
C'est différent du parcours technique de Sora, qui montre que copier Sora n'est pas le seul moyen.
EMO n'est pas basé sur une architecture de type DiT, c'est-à-dire qu'il n'utilise pas Transformer pour remplacer le UNet traditionnel. Son réseau fédérateur est modifié par rapport à Stable Diffusion 1.5.
Plus précisément, EMO est un cadre de génération vidéo de portrait expressif piloté par audio qui peut générer des vidéos de n'importe quelle durée en fonction de la longueur de la vidéo d'entrée.
Pictures
Le framework se compose principalement de deux étapes :
- Étape d'encodage de trame
déploie un réseau UNet appelé ReferenceNet, qui est responsable de l'extraction des fonctionnalités des images de référence et des images de vidéos.
- Étape de diffusion
Tout d'abord, l'encodeur audio pré-entraîné traite l'intégration audio et le masque de région du visage est combiné avec un bruit multi-images pour contrôler la génération d'images de visage.
Ensuite, le réseau fédérateur mène l’opération de débruitage. Deux types d'attention sont appliqués dans le réseau fédérateur, l'attention de référence et l'attention audio, qui servent respectivement à maintenir la cohérence identitaire du personnage et à réguler son mouvement.
De plus, le module temps est utilisé pour manipuler la dimension temporelle et ajuster la vitesse de déplacement.
En termes de données de formation, l'équipe a construit un ensemble de données audio et vidéo vaste et diversifié contenant plus de 250 heures de vidéo et plus de 15 millions d'images.
Les caractéristiques spécifiques de l'implémentation finale sont les suivantes :
- Peut générer des vidéos de n'importe quelle durée en fonction de l'audio d'entrée tout en garantissant la cohérence de l'identité du personnage (la vidéo la plus longue donnée dans la démonstration est de 1 minute et 49 secondes).
- Prend en charge le fait de parler et de chanter dans différentes langues (la démo comprend le mandarin, le cantonais, l'anglais, le japonais et le coréen)
- Prend en charge différents styles de peinture (photos, peintures traditionnelles, bandes dessinées, rendus 3D, personnes numériques IA)
Images
La comparaison quantitative est également grandement améliorée par rapport à la méthode précédente, atteignant SOTA, et n'est que légèrement inférieure à l'indicateur SyncNet qui mesure la qualité de la synchronisation labiale.
Images
Par rapport à d'autres méthodes qui ne reposent pas sur des modèles de diffusion, l'EMO prend plus de temps.
Et comme aucun signal de contrôle explicite n'est utilisé, ce qui pourrait conduire à la génération involontaire d'autres parties du corps telles que les mains, une solution potentielle consiste à utiliser des signaux de contrôle spécifiquement pour les parties du corps.
L'équipe d'EMO
Enfin, jetons un coup d'œil aux membres de l'équipe derrière EMO.
Le document montre que l'équipe EMO vient de l'Alibaba Intelligent Computing Research Institute.
Il y a quatre auteurs, à savoir Linrui Tian, Qi Wang, Bang Zhang et Liefeng Bo.
Photos
Parmi eux, Liefeng Bo est l'actuel chef du laboratoire XR du laboratoire Alibaba Tongyi.
Le Dr Bo Liefeng est diplômé de l'Université des sciences et technologies électroniques de Xi'an. Il a effectué des recherches postdoctorales au Toyota Research Institute de l'Université de Chicago et à l'Université de Washington. Ses domaines de recherche sont principalement le ML, le CV et la robotique. Ses citations Google Scholar dépassent les 13 000.
Avant de rejoindre Alibaba, il a d’abord occupé le poste de scientifique en chef au siège d’Amazon à Seattle, puis a rejoint le laboratoire d’IA de JD Digital Technology Group en tant que scientifique en chef.
En septembre 2022, Bo Liefeng rejoint Alibaba.
Photos
EMO n'est pas la première fois qu'Alibaba réussit dans le domaine de l'AIGC.
Photos
TenueToute personne disposant d'un changement de tenue en un clic grâce à l'IA.
Pictures
De plus, AnimateAnyone fait danser les chats et les chiens du monde entier dans la danse du bain.
Voici celui ci-dessous :
Photos
Maintenant que l'EMO est lancé, de nombreux internautes déplorent qu'Alibaba ait accumulé une certaine technologie dessus.
Photos
Si toutes ces technologies sont combinées maintenant, l'effet...
Je n'ose pas y penser, mais j'ai hâte d'y être.
Photos
En bref, nous nous rapprochons de "envoyer un script à l'IA et sortir le film entier".
Pictures
One More Thing
Sora, représente une percée dans la synthèse vidéo basée sur le texte.
EMO représente également un nouveau niveau de synthèse vidéo audio.
Bien que les deux aient des tâches différentes et des architectures spécifiques, ils ont quand même une chose importante en commun :
Il n'y a pas de modèle physique explicite au milieu, mais ils simulent tous les deux dans une certaine mesure les lois physiques.
Certaines personnes pensent donc que cela est contraire à l'insistance de Lecun selon laquelle « modéliser le monde pour des actions en générant des pixels est un gaspillage et est voué à l'échec », et soutient l'idée de « modèle mondial basé sur les données » de Jim Fan.
Photos
Diverses méthodes ont échoué dans le passé, mais le succès actuel vient peut-être en réalité des « Leçons amères » écrites par Sutton, le père de l'apprentissage par renforcement, où de grands efforts peuvent produire des miracles.
Permettre à l'IA de découvrir comme les gens, plutôt que de contenir ce que les gens découvrent
Des progrès révolutionnaires sont finalement réalisés en élargissant l'échelle de l'informatique
Article : https://www.php.cn/link/ a717f41c203cb970f96f706e4b12617bGitHub :https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40
Lien de référence :
[1]https://www.php.cn/link /0dd4f2526c7c874d06f19523264f6552
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Exploiter la puissance de l'IA sur disvise: construire une CLI de chatbot personnelle Dans un passé récent, le concept d'un assistant d'IA personnel semblait être une science-fiction. Imaginez Alex, un passionné de technologie, rêvant d'un compagnon d'IA intelligent et local - celui qui ne dépend pas

Leur lancement inaugural de l'AI4MH a eu lieu le 15 avril 2025, et le Dr Tom Insel, M.D., célèbre psychiatre et neuroscientifique, a été le conférencier de lancement. Le Dr Insel est réputé pour son travail exceptionnel dans la recherche en santé mentale et la techno

"Nous voulons nous assurer que la WNBA reste un espace où tout le monde, les joueurs, les fans et les partenaires d'entreprise, se sentent en sécurité, appréciés et autonomes", a déclaré Engelbert, abordé ce qui est devenu l'un des défis les plus dommageables des sports féminins. L'anno

Introduction Python excelle comme un langage de programmation, en particulier dans la science des données et l'IA générative. La manipulation efficace des données (stockage, gestion et accès) est cruciale lorsqu'il s'agit de grands ensembles de données. Nous avons déjà couvert les nombres et ST

Avant de plonger, une mise en garde importante: les performances de l'IA sont non déterministes et très usagées. En termes plus simples, votre kilométrage peut varier. Ne prenez pas cet article (ou aucun autre) article comme le dernier mot - au lieu, testez ces modèles sur votre propre scénario

Construire un portefeuille AI / ML hors concours: un guide pour les débutants et les professionnels La création d'un portefeuille convaincant est cruciale pour sécuriser les rôles dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Ce guide fournit des conseils pour construire un portefeuille

Le résultat? L'épuisement professionnel, l'inefficacité et un écart d'élargissement entre la détection et l'action. Rien de tout cela ne devrait être un choc pour quiconque travaille en cybersécurité. La promesse d'une IA agentique est devenue un tournant potentiel, cependant. Cette nouvelle classe

Impact immédiat contre partenariat à long terme? Il y a deux semaines, Openai s'est avancé avec une puissante offre à court terme, accordant aux étudiants des États-Unis et canadiens d'accès gratuit à Chatgpt Plus jusqu'à la fin mai 2025. Cet outil comprend GPT - 4O, un A


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

Version crackée d'EditPlus en chinois
Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP