Maison  >  Article  >  Tutoriel matériel  >  Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

Google lance le modèle « Vlogger » : une seule image génère une vidéo de 10 secondes

WBOY
WBOYavant
2024-03-21 12:21:381015parcourir

Google a publié un nouveau cadre vidéo :

Vous n'avez besoin que d'une photo de votre visage et d'un enregistrement de votre discours pour obtenir une vidéo réaliste de votre discours.

La durée de la vidéo est variable, et l'exemple actuel vu va jusqu'à 10s.

Vous pouvez voir que la forme de la bouche et l'expression du visage sont très naturelles.

Si l'image d'entrée couvre tout le haut du corps, elle peut également être utilisée avec une variété de gestes :

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Après l'avoir lue, les internautes ont déclaré :

Avec elle, nous n'avons plus besoin d'organiser nos cheveux et nos vêtements pour les vidéoconférences en ligne à l'avenir.

Eh bien, prenez simplement un portrait et enregistrez l'audio de la parole (tête de chien manuelle)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Utilisez votre voix pour contrôler le portrait afin de générer une vidéo

Ce framework s'appelle VLOGGER.

Il est principalement basé sur le modèle de diffusion et contient deux parties :

L'une est un modèle de diffusion aléatoire d'un humain à un mouvement 3D.

L'autre est une nouvelle architecture de diffusion pour améliorer les modèles texte-image.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Parmi eux, le premier est chargé d'utiliser la forme d'onde audio comme entrée pour générer les actions de contrôle corporel du personnage, y compris les yeux, les expressions et les gestes, la posture globale du corps, etc.

Ce dernier est un modèle image à image de dimension temporelle qui est utilisé pour étendre le modèle de diffusion d'images à grande échelle et utiliser les actions qui viennent d'être prédites pour générer les images correspondantes.

Afin de rendre les résultats conformes à une image de personnage spécifique, VLOGGER prend également la carte de pose de l'image de paramètre en entrée.

La formation de VLOGGER est réalisée sur un très grand ensemble de données (nommé MENTOR).

Quelle est sa taille ? Il dure 2 200 heures et contient un total de 800 000 vidéos de personnages.

Parmi eux, la durée de la vidéo de l'ensemble de test est également de 120 heures, avec un total de 4 000 caractères.

Google a présenté que la performance la plus remarquable de VLOGGER est sa diversité :

Comme le montre l'image ci-dessous, plus la couleur de l'image pixel finale est foncée (rouge), plus les actions sont riches.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Par rapport aux méthodes similaires précédentes dans l'industrie, le plus grand avantage de VLOGGER est qu'il n'a pas besoin de former tout le monde, ne repose pas sur la détection et le recadrage des visages, et la vidéo générée est complète (y compris le visage et les lèvres). , y compris les mouvements du corps), etc.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Plus précisément, comme le montre le tableau suivant :

La méthode de reconstitution du visage ne peut pas contrôler une telle génération de vidéo avec de l'audio et du texte.

Audio-to-motion peut générer de l'audio en codant l'audio en mouvements du visage 3D, mais l'effet qu'il génère n'est pas assez réaliste.

La synchronisation labiale peut traiter des vidéos de différents thèmes, mais elle ne peut que simuler les mouvements de la bouche.

En comparaison, les deux dernières méthodes, SadTaker et Styletalk, fonctionnent le plus proche de Google VLOGGER, mais elles sont également vaincues par l'incapacité de contrôler le corps et de modifier davantage la vidéo.

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

En parlant de montage vidéo, comme le montre l'image ci-dessous, l'une des applications du modèle VLOGGER est la suivante : il peut faire taire le personnage, fermer les yeux, fermer uniquement l'œil gauche ou ouvrir l'œil entier. en un clic :

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Une autre application est la traduction vidéo :

Par exemple, changer le discours anglais de la vidéo originale en espagnol avec la même forme de bouche.

Les internautes se sont plaints

Enfin, selon "l'ancienne règle", Google n'a pas publié le modèle, et maintenant tout ce que nous pouvons voir, ce sont plus d'effets et de papiers.

Eh bien, il y a beaucoup de plaintes :

La qualité d'image du modèle, la synchronisation labiale ne correspond pas, ça a toujours l'air très robotique, etc.

Certaines personnes n'ont donc pas hésité à laisser des avis négatifs :

Est-ce le niveau de Google ?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

Désolé pour le nom "VLOGGER".

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——Par rapport à Sora d'OpenAI, la déclaration de l'internaute n'est en effet pas déraisonnable. .

Qu'en pensez-vous ?

Plus d'effets :

https://enriccorona.github.io/vlogger/

Article complet :

https://enriccorona.github.io/vlogger/paper.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer