Maison  >  Article  >  Périphériques technologiques  >  La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle d'Alibaba, VideoComposer, est devenu populaire.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle d'Alibaba, VideoComposer, est devenu populaire.

王林
王林avant
2023-06-15 08:28:341274parcourir

Dans le domaine de la peinture IA, Composer proposé par Alibaba et ControlNet basé sur la diffusion stable proposée par Stanford ont dirigé le développement théorique de la génération d'images contrôlables. Cependant, l'exploration de la génération vidéo contrôlable par l'industrie est encore relativement vierge.

Par rapport à la génération d'images, la vidéo contrôlable est plus complexe, car en plus de la contrôlabilité de l'espace du contenu vidéo, elle doit également répondre à la contrôlabilité de la dimension temporelle. Sur cette base, les équipes de recherche d'Alibaba et d'Ant Group ont pris l'initiative de proposer VideoComposer, qui permet simultanément de contrôler la vidéo dans les dimensions temporelle et spatiale grâce à un paradigme de génération combinée.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

  • Adresse papier : https://arxiv.org/abs/2306.02018
  • Page d'accueil du projet : https://videocomposer.github.io

Avant section À cette époque, Alibaba a publié en open source le modèle vidéo Vincent dans Magic Community et Hugging Face, qui a de manière inattendue attiré l'attention des développeurs nationaux et étrangers. Les vidéos générées par le modèle ont même reçu une réponse de Musk lui-même, et. le modèle a continué à être populaire sur la communauté Magic. Il a reçu des dizaines de milliers de visites internationales en une seule journée sur plusieurs jours.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.


La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

Text-to-Video sur Twitter

VideoComposer Les derniers résultats ont une fois de plus été largement accueilli par la communauté internationale se concentrer sur. V ideoComposer sur Twitter


En fait, la contrôlabilité est devenue un contenu visuel Une référence supérieure pour la création, qui a fait des progrès significatifs dans la génération d'images personnalisées, mais a encore trois défis majeurs dans le domaine de la génération vidéo :

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

  • Structure de données complexe, la vidéo générée doit satisfaire à la fois la diversité des changements dynamiques dans la dimension temporelle et la cohérence du contenu dans la dimension spatio-temporelle
  • Conditions de guidage complexes, la génération vidéo contrôlable existante doit être complexe. les conditions ne peuvent pas être construites manuellement. Par exemple, Gen-1/2 proposé par Runway doit s'appuyer sur des séquences de profondeur comme conditions, ce qui permet de mieux réaliser une migration structurelle entre les vidéos, mais ne peut pas bien résoudre le problème de contrôlabilité
  • manque de contrôlabilité du mouvement, et le modèle de mouvement est un ; attribut complexe et abstrait de la vidéo, et la contrôlabilité du mouvement est une condition nécessaire pour résoudre la contrôlabilité de la génération vidéo.

Avant cela, Composer proposé par Alibaba a prouvé que la compositionnalité est extrêmement utile pour améliorer la contrôlabilité de la génération d'images. VideoComposer est également basé sur le paradigme de génération de composition et résout les trois problèmes ci-dessus tout en améliorant la flexibilité de. génération vidéo. Plus précisément, la vidéo est décomposée en trois conditions directrices, à savoir les conditions de texte, les conditions spatiales et les conditions de synchronisation spécifiques à la vidéo, puis le LDM vidéo (modèle de diffusion latente vidéo) est formé sur cette base. En particulier, il utilise un vecteur de mouvement efficace comme condition de synchronisation explicite importante pour apprendre le modèle de mouvement des vidéos, et conçoit un encodeur de condition spatio-temporelle simple et efficace, un encodeur STC pour assurer la continuité spatio-temporelle des vidéos pilotées par la condition. Lors de l’étape d’inférence, différentes conditions peuvent être combinées de manière aléatoire pour contrôler le contenu vidéo.

Les résultats expérimentaux montrent que VideoComposer peut contrôler de manière flexible les modèles temporels et spatiaux des vidéos, tels que la génération de vidéos spécifiques à travers des images uniques, des dessins dessinés à la main, etc., et peut même facilement contrôler le style de mouvement de la cible via de simples directions dessinées à la main. Cette étude a directement testé les performances de VideoComposer sur 9 tâches classiques différentes, et toutes ont obtenu des résultats satisfaisants, prouvant la polyvalence de VideoComposer.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

Figure (a-c) VideoComposer peut générer des vidéos qui répondent aux conditions de texte, d'espace et de temps ou un sous-ensemble de celles-ci (d) VideoComposer ne peut utiliser que deux traits pour générer des vidéos qui répondent au style Van Gogh ; satisfaisant Mode mouvement anticipé (traits rouges) et mode forme (traits blancs)

Espace caché.

Video LDM introduit d'abord un encodeur pré-entraîné pour mapper la vidéo d'entrée

à une représentation spatiale latente, où

. Ensuite, le décodeur pré-entraîné D est utilisé pour mapper l'espace latent à l'espace des pixels. Dans VideoComposer, réglages des paramètres

.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.Modèle de diffusion. La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

Pour apprendre la distribution réelle de contenu vidéoLa génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire., le modèle de diffusion apprend à débruiter progressivement le bruit de distribution normal pour restaurer le contenu visuel réel. Ce processus simule en fait une chaîne de Markov réversible d'une longueur de T = 1000. Afin d'effectuer un processus réversible dans l'espace latent, Video LDM injecte du bruit dans

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

pour obtenir la variable latente injectée par le bruit

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

. Ensuite, il utilise la fonction de débruitage

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

pour agir sur

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

et la condition d'entrée c, alors l'objectif d'optimisation est le suivant :

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

Afin d'explorer et d'utiliser pleinement l'espace local biais et séquence inductifs Pour le débruitage à l'aide du biais d'induction temporelle, VideoComposer instancie

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

dans un UNet 3D, en utilisant à la fois des opérateurs de convolution temporelle et des mécanismes d'attention croisée.

La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

VideoComposer

Conditions combinées. VideoComposer décompose la vidéo en trois types différents de conditions, à savoir les conditions textuelles, les conditions spatiales et les conditions de synchronisation critiques, qui déterminent ensemble les modèles spatiaux et temporels dans la vidéo. VideoComposer est un cadre général de génération vidéo combinée, de sorte que des conditions plus personnalisées peuvent être incorporées dans VideoComposer en fonction de l'application en aval, sans se limiter aux conditions énumérées ci-dessous :

  • Conditions de texte : la description du texte (texte) commence par le visuel approximatif les aspects du contenu et du mouvement fournissent une indication intuitive de la vidéo, ce qui est également une condition couramment utilisée pour T2V ; comme condition spatiale pour générer une image en vidéo pour exprimer le contenu et la structure de la vidéo ;

Single Sketch, utilisez PiDiNet pour extraire l'esquisse de la première image vidéo comme deuxième conditions spatiales ; ), afin de transférer davantage le style d'une seule image à la vidéo synthétisée, l'intégration d'images est sélectionnée comme guide de style

  •  ;
    • Conditions de synchronisation :
    • Motion Vector, le vecteur de mouvement est représenté comme un vecteur bidimensionnel en tant qu'élément unique de la vidéo, c'est-à-dire les directions horizontale et verticale. Il code explicitement le mouvement pixel par pixel entre deux images adjacentes. En raison des propriétés naturelles des vecteurs de mouvement, cette condition est traitée comme un signal de contrôle de mouvement synthétisé temporellement fluide, qui extrait les vecteurs de mouvement au format MPEG-4 standard à partir de la vidéo compressée #Depth Sequence (Depth Sequence), afin d'introduire la vidéo ; informations de profondeur de niveau, utilisez le modèle pré-entraîné dans PiDiNet pour extraire la carte de profondeur de l'image vidéo
    • Séquence de masque (Séquence de masque), qui introduit un masque tubulaire ; pour masquer le contenu spatio-temporel local et force le modèle à prédire la zone masquée sur la base d'informations observables
    • Sketch Sequence ), une séquence d'esquisse peut fournir plus de détails de contrôle qu'une seule ; croquis, permettant des compositions personnalisées précises.
    • Encodeur conditionnel spatiotemporel.

    Les conditions de séquence contiennent des dépendances spatio-temporelles riches et complexes, qui posent un plus grand défi aux instructions contrôlables. Pour améliorer la perception temporelle des conditions d'entrée, cette étude a conçu un encodeur de conditions spatio-temporelles (encodeur STC) pour intégrer les relations spatio-temporelles. Plus précisément, une structure spatiale légère est d'abord appliquée, comprenant deux convolutions 2D et un avgPooling, pour extraire des informations spatiales locales, puis la séquence de conditions résultante est entrée dans une couche de transformateur temporel pour une modélisation temporelle. De cette manière, l'encodeur STC peut faciliter l'intégration explicite d'indices temporels et fournir une entrée unifiée pour l'intégration conditionnelle de diverses entrées, améliorant ainsi la cohérence inter-trames. De plus, l'étude a répété les conditions spatiales d'une seule image et d'un seul croquis dans la dimension temporelle pour assurer leur cohérence avec les conditions temporelles, facilitant ainsi le processus d'intégration des conditions. Après avoir traité les conditions via l'encodeur STC, la séquence de conditions finale a la même forme spatiale que , et est ensuite fusionnée par addition élément par élément. Enfin, la séquence conditionnelle fusionnée est concaténée le long de la dimension du canal en tant que signal de contrôle. Pour les conditions de texte et de style, un mécanisme d’attention croisée est utilisé pour injecter des conseils de texte et de style.

    Formation et inférence

    #🎜 🎜 #Stratégie de formation en deux étapes.

    Bien que VideoComposer puisse être initialisé via un pré-entraînement de l'image LDM, ce qui peut atténuer dans une certaine mesure la difficulté de l'entraînement, il est difficile pour le modèle d'avoir à la fois le capacité à détecter les dynamiques temporelles et multiples La capacité à générer de manière conditionnelle, cela augmentera la difficulté de la formation à la génération vidéo combinée. Par conséquent, cette étude a adopté une stratégie d'optimisation en deux étapes. Dans la première étape, le modèle a été initialement équipé de capacités de modélisation temporelle grâce à la formation T2V. Dans la deuxième étape, VideoComposer a été optimisé grâce à une formation combinée pour obtenir de meilleures performances. Raisonnement.

    Pendant le processus d'inférence, DDIM est utilisé pour améliorer l'efficacité de l'inférence. Et adoptez des conseils sans classificateur pour garantir que les résultats générés répondent aux conditions spécifiées. Le processus de génération peut être formalisé comme suit :

    où ω est le rapport guide et c2 sont deux ensembles ; de conditions. Ce mécanisme de guidage est jugé par un ensemble de deux conditions et peut donner au modèle un contrôle plus flexible grâce au contrôle de l'intensité.

    La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

    Résultats expérimentaux

    Dans l'exploration expérimentale, l'étude a prouvé que VideoComposer en tant que modèle unifié dispose d'un cadre génératif universel et fonctionne bien sur 9 tâches classiques Vérifier les capacités de VideoComposer.

    Certains résultats de cette recherche sont les suivants, en génération d'image statique en vidéo (Figure 4), Inpainting vidéo (Figure 5), génération de croquis statiques en vidéo (Figure 6), la vidéo de contrôle de mouvement dessinée à la main (Figure 8) et le transfert de mouvement (Figure A12) peuvent tous refléter les avantages de la génération vidéo contrôlable.

    La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

    La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.


    # 🎜 🎜#

    La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle dAlibaba, VideoComposer, est devenu populaire.

    Présentation de l'équipe

    Les informations publiques montrent qu'Alibaba développe un visuel de base modèle Ses recherches se concentrent principalement sur les grands modèles de représentation visuelle, les grands modèles visuels génératifs et leurs applications en aval. Il a publié plus de 60 articles CCF-A dans des domaines connexes et a remporté plus de 10 championnats internationaux dans plusieurs compétitions industrielles. méthode de génération d'images Composer, méthodes de pré-formation d'images et de texte RA-CLIP et RLEG, apprentissage auto-supervisé de longues vidéos non recadrées HiCo/HiCo++ et méthode de génération de visage parlant LipFormer font tous partie de cette équipe.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer