Maison > Article > Périphériques technologiques > La génération de vidéos avec un temps et un espace contrôlables est devenue une réalité, et le nouveau modèle à grande échelle d'Alibaba, VideoComposer, est devenu populaire.
Dans le domaine de la peinture IA, Composer proposé par Alibaba et ControlNet basé sur la diffusion stable proposée par Stanford ont dirigé le développement théorique de la génération d'images contrôlables. Cependant, l'exploration de la génération vidéo contrôlable par l'industrie est encore relativement vierge.
Par rapport à la génération d'images, la vidéo contrôlable est plus complexe, car en plus de la contrôlabilité de l'espace du contenu vidéo, elle doit également répondre à la contrôlabilité de la dimension temporelle. Sur cette base, les équipes de recherche d'Alibaba et d'Ant Group ont pris l'initiative de proposer VideoComposer, qui permet simultanément de contrôler la vidéo dans les dimensions temporelle et spatiale grâce à un paradigme de génération combinée.
Avant section À cette époque, Alibaba a publié en open source le modèle vidéo Vincent dans Magic Community et Hugging Face, qui a de manière inattendue attiré l'attention des développeurs nationaux et étrangers. Les vidéos générées par le modèle ont même reçu une réponse de Musk lui-même, et. le modèle a continué à être populaire sur la communauté Magic. Il a reçu des dizaines de milliers de visites internationales en une seule journée sur plusieurs jours.
Text-to-Video sur Twitter
VideoComposer Les derniers résultats ont une fois de plus été largement accueilli par la communauté internationale se concentrer sur. V ideoComposer sur Twitter
En fait, la contrôlabilité est devenue un contenu visuel Une référence supérieure pour la création, qui a fait des progrès significatifs dans la génération d'images personnalisées, mais a encore trois défis majeurs dans le domaine de la génération vidéo :
Avant cela, Composer proposé par Alibaba a prouvé que la compositionnalité est extrêmement utile pour améliorer la contrôlabilité de la génération d'images. VideoComposer est également basé sur le paradigme de génération de composition et résout les trois problèmes ci-dessus tout en améliorant la flexibilité de. génération vidéo. Plus précisément, la vidéo est décomposée en trois conditions directrices, à savoir les conditions de texte, les conditions spatiales et les conditions de synchronisation spécifiques à la vidéo, puis le LDM vidéo (modèle de diffusion latente vidéo) est formé sur cette base. En particulier, il utilise un vecteur de mouvement efficace comme condition de synchronisation explicite importante pour apprendre le modèle de mouvement des vidéos, et conçoit un encodeur de condition spatio-temporelle simple et efficace, un encodeur STC pour assurer la continuité spatio-temporelle des vidéos pilotées par la condition. Lors de l’étape d’inférence, différentes conditions peuvent être combinées de manière aléatoire pour contrôler le contenu vidéo.
Les résultats expérimentaux montrent que VideoComposer peut contrôler de manière flexible les modèles temporels et spatiaux des vidéos, tels que la génération de vidéos spécifiques à travers des images uniques, des dessins dessinés à la main, etc., et peut même facilement contrôler le style de mouvement de la cible via de simples directions dessinées à la main. Cette étude a directement testé les performances de VideoComposer sur 9 tâches classiques différentes, et toutes ont obtenu des résultats satisfaisants, prouvant la polyvalence de VideoComposer.
Figure (a-c) VideoComposer peut générer des vidéos qui répondent aux conditions de texte, d'espace et de temps ou un sous-ensemble de celles-ci (d) VideoComposer ne peut utiliser que deux traits pour générer des vidéos qui répondent au style Van Gogh ; satisfaisant Mode mouvement anticipé (traits rouges) et mode forme (traits blancs)
Espace caché.Video LDM introduit d'abord un encodeur pré-entraîné pour mapper la vidéo d'entrée à une représentation spatiale latente, où . Ensuite, le décodeur pré-entraîné D est utilisé pour mapper l'espace latent à l'espace des pixels. Dans VideoComposer, réglages des paramètres Modèle de diffusion. Pour apprendre la distribution réelle de contenu vidéo
, le modèle de diffusion apprend à débruiter progressivement le bruit de distribution normal pour restaurer le contenu visuel réel. Ce processus simule en fait une chaîne de Markov réversible d'une longueur de T = 1000. Afin d'effectuer un processus réversible dans l'espace latent, Video LDM injecte du bruit dans
Afin d'explorer et d'utiliser pleinement l'espace local biais et séquence inductifs Pour le débruitage à l'aide du biais d'induction temporelle, VideoComposer instancie dans un UNet 3D, en utilisant à la fois des opérateurs de convolution temporelle et des mécanismes d'attention croisée.
VideoComposer
Conditions combinées. VideoComposer décompose la vidéo en trois types différents de conditions, à savoir les conditions textuelles, les conditions spatiales et les conditions de synchronisation critiques, qui déterminent ensemble les modèles spatiaux et temporels dans la vidéo. VideoComposer est un cadre général de génération vidéo combinée, de sorte que des conditions plus personnalisées peuvent être incorporées dans VideoComposer en fonction de l'application en aval, sans se limiter aux conditions énumérées ci-dessous :
Single Sketch, utilisez PiDiNet pour extraire l'esquisse de la première image vidéo comme deuxième conditions spatiales ; ), afin de transférer davantage le style d'une seule image à la vidéo synthétisée, l'intégration d'images est sélectionnée comme guide de style
Les conditions de séquence contiennent des dépendances spatio-temporelles riches et complexes, qui posent un plus grand défi aux instructions contrôlables. Pour améliorer la perception temporelle des conditions d'entrée, cette étude a conçu un encodeur de conditions spatio-temporelles (encodeur STC) pour intégrer les relations spatio-temporelles. Plus précisément, une structure spatiale légère est d'abord appliquée, comprenant deux convolutions 2D et un avgPooling, pour extraire des informations spatiales locales, puis la séquence de conditions résultante est entrée dans une couche de transformateur temporel pour une modélisation temporelle. De cette manière, l'encodeur STC peut faciliter l'intégration explicite d'indices temporels et fournir une entrée unifiée pour l'intégration conditionnelle de diverses entrées, améliorant ainsi la cohérence inter-trames. De plus, l'étude a répété les conditions spatiales d'une seule image et d'un seul croquis dans la dimension temporelle pour assurer leur cohérence avec les conditions temporelles, facilitant ainsi le processus d'intégration des conditions. Après avoir traité les conditions via l'encodeur STC, la séquence de conditions finale a la même forme spatiale que , et est ensuite fusionnée par addition élément par élément. Enfin, la séquence conditionnelle fusionnée est concaténée le long de la dimension du canal en tant que signal de contrôle. Pour les conditions de texte et de style, un mécanisme d’attention croisée est utilisé pour injecter des conseils de texte et de style.
Formation et inférence
#🎜 🎜 #Stratégie de formation en deux étapes.
Bien que VideoComposer puisse être initialisé via un pré-entraînement de l'image LDM, ce qui peut atténuer dans une certaine mesure la difficulté de l'entraînement, il est difficile pour le modèle d'avoir à la fois le capacité à détecter les dynamiques temporelles et multiples La capacité à générer de manière conditionnelle, cela augmentera la difficulté de la formation à la génération vidéo combinée. Par conséquent, cette étude a adopté une stratégie d'optimisation en deux étapes. Dans la première étape, le modèle a été initialement équipé de capacités de modélisation temporelle grâce à la formation T2V. Dans la deuxième étape, VideoComposer a été optimisé grâce à une formation combinée pour obtenir de meilleures performances. Raisonnement.
Pendant le processus d'inférence, DDIM est utilisé pour améliorer l'efficacité de l'inférence. Et adoptez des conseils sans classificateur pour garantir que les résultats générés répondent aux conditions spécifiées. Le processus de génération peut être formalisé comme suit :
où ω est le rapport guide et c2 sont deux ensembles ; de conditions. Ce mécanisme de guidage est jugé par un ensemble de deux conditions et peut donner au modèle un contrôle plus flexible grâce au contrôle de l'intensité. Résultats expérimentauxDans l'exploration expérimentale, l'étude a prouvé que VideoComposer en tant que modèle unifié dispose d'un cadre génératif universel et fonctionne bien sur 9 tâches classiques Vérifier les capacités de VideoComposer.
Certains résultats de cette recherche sont les suivants, en génération d'image statique en vidéo (Figure 4), Inpainting vidéo (Figure 5), génération de croquis statiques en vidéo (Figure 6), la vidéo de contrôle de mouvement dessinée à la main (Figure 8) et le transfert de mouvement (Figure A12) peuvent tous refléter les avantages de la génération vidéo contrôlable.
# 🎜 🎜#
Les informations publiques montrent qu'Alibaba développe un visuel de base modèle Ses recherches se concentrent principalement sur les grands modèles de représentation visuelle, les grands modèles visuels génératifs et leurs applications en aval. Il a publié plus de 60 articles CCF-A dans des domaines connexes et a remporté plus de 10 championnats internationaux dans plusieurs compétitions industrielles. méthode de génération d'images Composer, méthodes de pré-formation d'images et de texte RA-CLIP et RLEG, apprentissage auto-supervisé de longues vidéos non recadrées HiCo/HiCo++ et méthode de génération de visage parlant LipFormer font tous partie de cette équipe.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!