Maison >Périphériques technologiques >IA >La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

王林avant: 2023-12-27 18:35:16993parcourir

Le nouveau cadre de synthèse vidéo de Meta nous a apporté quelques surprises

En termes de niveau de développement de l'intelligence artificielle d'aujourd'hui, les images basées sur du texte, les vidéos basées sur des images et le transfert de style image/vidéo ne sont rien de difficile.

L'IA générative est dotée de la capacité de créer ou de modifier du contenu sans effort. L’édition d’images, en particulier, a connu une croissance significative, portée par des modèles de diffusion texte-image pré-entraînés sur des ensembles de données à l’échelle d’un milliard. Cette vague a donné naissance à une pléthore d’applications d’édition d’images et de création de contenu.

Sur la base des réalisations des modèles génératifs basés sur l'image, le prochain défi doit être d'y ajouter une « dimension temporelle », afin de réaliser un montage vidéo facile et créatif.

Une stratégie simple consiste à utiliser un modèle d'image pour traiter la vidéo image par image. Cependant, l'édition d'image générative est intrinsèquement très variable : il existe d'innombrables façons d'éditer une image donnée, même à partir de la même invite de texte. Si chaque image est éditée indépendamment, il sera difficile de maintenir une cohérence temporelle.

Dans un article récent, des chercheurs de l'équipe Meta GenAI ont proposé Fairy - une "simple adaptation" du modèle de diffusion de l'édition d'images, qui améliore considérablement les performances de l'IA dans le montage vidéo.

Ce qui suit est l'affichage des effets vidéo d'édition de Fairy :

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Fairy génère 120 images de vidéo 512 × 384 (4 secondes, 30 FPS) en seulement 14 secondes, ce qui est au moins 44 fois plus rapide que les méthodes précédentes. Une étude utilisateur complète portant sur 1 000 échantillons générés a confirmé que la méthode proposée génère une qualité élevée et surpasse considérablement les méthodes existantes.

Comment faire ?

Selon l'article, Fairy est basé sur le concept d'attention inter-images basée sur des points d'ancrage. Ce mécanisme peut implicitement propager des caractéristiques de diffusion à travers les images, garantissant des effets de synthèse cohérents dans le temps et haute fidélité. Fairy résout non seulement les limitations des modèles précédents en termes de mémoire et de vitesse de traitement, mais améliore également la cohérence temporelle grâce à une stratégie unique d'augmentation des données qui rend le modèle équivalent à une transformation affine des images source et cible.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Adresse de papier: https://arxiv.org/pdf/2312.13834.pdf
project Homepage: https://fairy-video2video.github.io/

Methods

Fairy revisite le précédent paradigme de suivi et de propagation dans le contexte des caractéristiques du modèle de diffusion. En particulier, cette étude utilise l'estimation de correspondance pour combler l'attention inter-images, permettant au modèle de suivre et de propager les caractéristiques intermédiaires au sein du modèle de diffusion.

La carte d'attention entre les images peut être interprétée comme une mesure de similarité pour évaluer la correspondance entre les jetons dans chaque image, où les caractéristiques d'une zone sémantique accorderont une plus grande attention aux autres images. Zones sémantiques similaires, comme le montre la figure 3 ci-dessous. .

Par conséquent, la représentation actuelle des caractéristiques est affinée et propagée en se concentrant sur la somme pondérée des régions similaires entre les images, minimisant ainsi efficacement les différences de caractéristiques entre les images.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Une série d'opérations produit un modèle basé sur une ancre, qui est le composant central de Fairy.

Pour garantir la cohérence temporelle des vidéos générées, cette étude a échantillonné K images d'ancrage pour extraire les caractéristiques de diffusion, et les caractéristiques extraites ont été définies comme un ensemble de caractéristiques globales à propager aux images consécutives. Cette étude remplace la couche d'auto-attention par une attention inter-images pour les fonctionnalités mises en cache de l'image d'ancrage lorsque chaque nouvelle image est générée. Grâce à l'attention inter-trames, les jetons de chaque trame adoptent des caractéristiques qui présentent un contenu sémantique similaire dans la trame d'ancrage, améliorant ainsi la cohérence.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Évaluation expérimentale

Dans la partie expérimentale, les chercheurs ont principalement implémenté Fairy sur la base du modèle pédagogique d'édition d'images et ont utilisé l'attention multi-images pour remplacer l'auto-attention du modèle. Ils ont fixé le nombre de cadres d'ancrage à 3. Le modèle peut accepter des entrées de différents rapports d'aspect et redimensionner la résolution d'entrée de taille plus longue à 512, en gardant le rapport d'aspect inchangé. Les chercheurs éditent toutes les images de la vidéo d’entrée sans sous-échantillonnage. Tous les calculs sont répartis sur 8 GPU A100.

Évaluation qualitative

Le chercheur a d'abord montré les résultats qualitatifs de Fairy, comme le montre la figure 5 ci-dessous, Fairy peut éditer différents sujets.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Dans la figure 6 ci-dessous, le chercheur montre que Fairy peut effectuer différents types d'édition en fonction des instructions du texte, notamment la stylisation, les changements de rôle, l'édition locale, l'édition d'attributs, etc.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

La figure 9 ci-dessous montre que Fairy peut convertir le personnage source en différents personnages cibles selon les instructions.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Évaluation quantitative

Les chercheurs montrent les résultats globaux de la comparaison de la qualité dans la figure 7 ci-dessous, dans laquelle les vidéos générées par Fairy sont les plus populaires.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

La figure 10 ci-dessous montre les résultats de la comparaison visuelle avec le modèle de base.

La vidéo peut être reconstruite en 14 secondes et les caractères peuvent être modifiés. Meta accélère la synthèse vidéo de 44 fois.

Pour plus de détails techniques et de résultats expérimentaux, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Token github 人工智能 https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Le PDG d'Intel affirme que le succès de Nvidia dans le domaine de l'intelligence artificielle, dirigé par Huang Jen-Hsun, est dû à la chance.Article suivant：Le PDG d'Intel affirme que le succès de Nvidia dans le domaine de l'intelligence artificielle, dirigé par Huang Jen-Hsun, est dû à la chance.

Articles Liés

Voir plus