Maison >Périphériques technologiques >IA >Les universités nationales construisent un VDT ​​modèle de type Sora, et le transformateur de diffusion vidéo universel a été accepté par l'ICLR 2024.

Les universités nationales construisent un VDT ​​modèle de type Sora, et le transformateur de diffusion vidéo universel a été accepté par l'ICLR 2024.

WBOY
WBOYavant
2024-02-26 08:01:32735parcourir
La sortie d'OpenAI Sora le 16 février marque sans aucun doute une avancée majeure dans le domaine de la génération vidéo. Sora est basé sur l'architecture Diffusion Transformer, qui est différente de la plupart des méthodes traditionnelles du marché (étendue par 2D Stable Diffusion).

Pourquoi Sora insiste pour utiliser Diffusion Transformer, les raisons peuvent être vues dans l'article publié à l'ICLR 2024 (VDT : General-Purpose Video Diffusion Transformers via Mask Modeling) en même temps.

Ce travail a été dirigé par l'équipe de recherche de l'Université Renmin de Chine et en collaboration avec l'Université de Californie, Berkeley, l'Université de Hong Kong, etc., et a été publié pour la première fois sur le site arXiv en mai 2023. L'équipe de recherche a proposé un cadre de génération vidéo unifié basé sur Transformer - Video Diffusion Transformer (VDT) et a donné une explication détaillée des raisons de l'adoption de l'architecture Transformer.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

  • Titre de l'article : VDT : Transformateurs de diffusion vidéo à usage général via la modélisation de masques
  • Adresse de l'article : Openreview : https://openreview.net/pdf?id=Un0rgm9f04
  • Adresse arXiv : https://arxiv.org/abs/2305.13311
  • Adresse du projet : VDT : Transformateurs de diffusion vidéo à usage général via la modélisation de masques
  • Adresse du code : https://github.com/RERV/VDT

1. La supériorité et l'innovation du VDT

Le chercheur a déclaré que la supériorité du modèle VDT utilisant l'architecture Transformer dans le domaine de la génération vidéo se reflète dans :

  • et U- qui est principalement conçu pour les images.Net, Transformer peut capturer des dépendances temporelles à long terme ou irrégulières grâce à ses puissants mécanismes de tokenisation et d'attention, gérant ainsi mieux la dimension temporelle.
  • Ce n'est que lorsque le modèle apprend (ou mémorise) des connaissances du monde (telles que les relations espace-temps et les lois physiques) qu'il peut générer des vidéos cohérentes avec le monde réel. La capacité du modèle devient donc un élément clé de la diffusion vidéo. Transformer s'est avéré hautement évolutif. Par exemple, le modèle PaLM comporte jusqu'à 540 B de paramètres, alors que la plus grande taille de modèle 2D U-Net à l'époque n'était que de 2,6 B paramètres (SDXL), ce qui rend Transformer plus approprié que le 3D U. -Net.Défis de génération vidéo.
  • Le domaine de la génération vidéo couvre plusieurs tâches, notamment la génération inconditionnelle, la prédiction vidéo, l'interpolation et la génération de texte en image. Les recherches antérieures se concentraient souvent sur une seule tâche, nécessitant souvent l'introduction de modules spécialisés pour affiner les tâches en aval. De plus, ces tâches impliquent une grande variété d’informations conditionnelles qui peuvent différer selon les trames et les modalités, nécessitant une architecture puissante capable de gérer différentes longueurs et modalités d’entrée. L'introduction de Transformer peut unifier ces tâches.

Les innovations de VDT incluent principalement les aspects suivants :

  • L'application de la technologie Transformer à la génération vidéo basée sur la diffusion démontre les capacités de Transformer dans le domaine de la génération vidéo Un énorme potentiel . L'avantage du VDT réside dans son excellente capacité de capture en fonction du temps, permettant la génération d'images vidéo temporellement cohérentes, notamment la simulation de la dynamique physique d'objets tridimensionnels au fil du temps.
  • Proposer une machine de modélisation de masques spatio-temporels unifiée, qui permet à VDT de gérer une variété de tâches de génération vidéo et de réaliser une application généralisée de la technologie. Les méthodes flexibles de traitement de l'information conditionnelle de VDT, telles que le simple épissage de l'espace de jetons, unifient efficacement les informations de différentes longueurs et modalités. Dans le même temps, en combinant le mécanisme de modélisation de masque spatio-temporel proposé dans ce travail, VDT est devenu un outil de diffusion vidéo universel qui peut être appliqué à la génération inconditionnelle, à la prédiction d'images vidéo ultérieures, à l'interpolation d'images et à la génération d'images sans modifier la structure du modèle. . Diverses tâches de génération vidéo telles que la réalisation de vidéos et d'écrans vidéo.

2. Interprétation détaillée de l'architecture réseau de VDT

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Le framework VDT est très similaire au framework de Sora et se compose des parties suivantes :

Fonctionnalités d'entrée/sortie. L'objectif de VDT est de générer un segment vidéo F×H×W×3 composé de F images vidéo de taille H×W. Cependant, si des pixels bruts sont utilisés comme entrée dans le VDT, en particulier lorsque F est grand, cela entraînera une complexité informatique extrêmement complexe. Pour résoudre ce problème, inspiré du modèle de diffusion latente (LDM), VDT utilise un tokenizer VAE pré-entraîné pour projeter la vidéo dans l'espace latent. La réduction des dimensions vectorielles d'entrée et de sortie à F×H/8×W/8×C des caractéristiques/bruit potentiels accélère la vitesse de formation et d'inférence du VDT, où la taille des caractéristiques latentes de la trame F est H/8×W. /8 . Ici, 8 est le taux de sous-échantillonnage du tokenizer VAE et C représente la dimension des fonctionnalités latentes.

Intégration linéaire. Suivant l'approche Vision Transformer, VDT divise la représentation des fonctionnalités vidéo latentes en patchs non chevauchants de taille N × N.

Bloc transformateur espace-temps. Inspiré par le succès de l'auto-attention spatio-temporelle dans la modélisation vidéo, VDT a inséré une couche d'attention temporelle dans le Transformer Block pour obtenir des capacités de modélisation de dimension temporelle. Plus précisément, chaque bloc transformateur se compose d'une attention temporelle multi-têtes, d'une attention spatiale multi-têtes et d'un réseau de rétroaction entièrement connecté, comme le montre la figure ci-dessus.

En comparant le dernier rapport technique de Sora, nous pouvons voir que il n'y a que quelques différences subtiles dans les détails de mise en œuvre entre VDT ​​et Sora .

Tout d'abord, VDT adopte la méthode de traitement du mécanisme d'attention séparément dans la dimension spatio-temporelle, tandis que Sora fusionne les dimensions temporelles et spatiales et le traite via un mécanisme d'attention unique. Cette approche de séparation de l'attention est devenue assez courante dans le domaine vidéo et est souvent considérée comme une option de compromis sous les contraintes de la mémoire vidéo. VDT choisit d'utiliser une attention partagée en raison de ressources informatiques limitées. Les puissantes capacités dynamiques vidéo de Sora peuvent provenir du mécanisme global d’attention de l’espace et du temps.

Deuxièmement, contrairement à VDT, Sora considère également la fusion des conditions de texte. Il y a également eu des recherches antérieures sur la fusion conditionnelle de texte basée sur Transformer (comme DiT). On suppose que Sora pourrait en outre ajouter un mécanisme d'attention croisée à son module. Bien sûr, l'épissage direct du texte et du bruit en tant qu'entrée conditionnelle est également une solution. possibilité potentielle.

Au cours du processus de recherche de VDT, les chercheurs ont remplacé U-Net, un réseau fédérateur de base couramment utilisé, par Transformer. Cela a non seulement vérifié l'efficacité de Transformer dans les tâches de diffusion vidéo, montrant les avantages d'une expansion facile et d'une continuité améliorée, mais a également déclenché une réflexion plus approfondie sur sa valeur potentielle.

Avec le succès du modèle GPT et la popularité du modèle autorégressif (AR), les chercheurs ont commencé à explorer des applications plus approfondies de Transformer dans le domaine de la génération vidéo et à déterminer s'il peut fournir une nouvelle façon d'atteindre intelligence visuelle. Le domaine de la génération vidéo a une tâche étroitement liée : la prédiction vidéo. L’idée de prédire la prochaine image vidéo comme chemin vers l’intelligence visuelle peut sembler simple, mais il s’agit en fait d’une préoccupation commune à de nombreux chercheurs.

Sur la base de cette considération, les chercheurs espèrent adapter et optimiser davantage leurs modèles sur les tâches de prédiction vidéo. La tâche de prédiction vidéo peut également être considérée comme une génération conditionnelle, où les images conditionnelles données sont les premières images de la vidéo. VDT considère principalement les trois méthodes de génération de conditions suivantes :

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Normalisation adaptative des couches. Un moyen simple de réaliser la prédiction vidéo consiste à intégrer des caractéristiques de trame conditionnelles dans la normalisation des couches des blocs VDT, de la même manière que nous intégrons les informations temporelles dans le processus de diffusion.

Attention croisée. Les chercheurs ont également exploré l’utilisation de l’attention croisée comme schéma de prédiction vidéo, dans lequel les images conditionnelles sont utilisées comme clés et valeurs, et les images de bruit comme requêtes. Cela permet de fusionner des informations conditionnelles avec des trames de bruit. Avant d'entrer dans la couche d'attention croisée, utilisez le tokenizer VAE pour extraire les fonctionnalités de la trame conditionnelle et les corriger. Pendant ce temps, des intégrations de positions spatiales et temporelles sont également ajoutées pour aider notre VDT à apprendre les informations correspondantes dans des trames conditionnelles.

Épissure de jetons. Le modèle VDT adopte une architecture Transformer pure, donc l'utilisation directe de trames conditionnelles comme jetons d'entrée est une méthode plus intuitive pour VDT. Nous y parvenons en concaténant des trames conditionnées (caractéristiques latentes) et des trames de bruit au niveau du jeton, qui sont ensuite introduites dans le VDT. Ensuite, ils ont segmenté la séquence de trames de sortie du VDT et utilisé les trames prédites pour un processus de diffusion, comme le montre la figure 3 (b). Les chercheurs ont constaté que ce schéma démontrait la vitesse de convergence la plus rapide et offrait de meilleures performances dans les résultats finaux par rapport aux deux premières méthodes. En outre, les chercheurs ont découvert que même si des images conditionnelles de longueur fixe sont utilisées pendant la formation, le VDT peut toujours accepter des images conditionnelles de n'importe quelle longueur comme fonctionnalités de prédiction cohérentes en entrée et en sortie.

Dans le cadre de VDT, afin de réaliser la tâche de prédiction vidéo, il n'est pas nécessaire d'apporter des modifications à la structure du réseau, seule l'entrée du modèle doit être modifiée. Cette découverte conduit à une question intuitive : Pouvons-nous exploiter davantage cette évolutivité pour étendre VDT à des tâches de génération vidéo plus diverses - telles que la génération d'images vidéo - sans introduire de modules ou de paramètres supplémentaires  ?

En examinant les capacités de VDT en génération inconditionnelle et en prédiction vidéo, la seule différence réside dans le type de fonctionnalités d'entrée. Plus précisément, l’entrée peut être constituée de caractéristiques latentes purement bruitées, ou d’une concaténation de caractéristiques latentes conditionnelles et bruyantes. Ensuite, le chercheur a introduit la modélisation unifiée de masque spatio-temporel pour unifier l'entrée conditionnelle, comme le montre la figure 4 ci-dessous :

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

3. Évaluation des performances du VDT

Grâce à la méthode ci-dessus, le modèle VDT peut non seulement gérer les tâches de génération vidéo inconditionnelle et de prédiction vidéo de manière transparente, mais peut également être étendu à un plus large éventail de domaines de génération vidéo tels que la vidéo en ajustant simplement les fonctionnalités d'entrée. Interpolation de trame, etc. Cette incarnation de la flexibilité et de l'évolutivité démontre le puissant potentiel du cadre VDT et offre de nouvelles orientations et possibilités pour la future technologie de génération vidéo.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Fait intéressant, en plus de la conversion texte-vidéo, OpenAI a également démontré d'autres tâches étonnantes de Sora, notamment la génération basée sur des images, la prédiction vidéo avant et arrière et des exemples de fusion de différents clips vidéo, etc., et le les chercheurs ont proposé Les tâches en aval prises en charge par la modélisation unifiée du masque spatio-temporel sont très similaires. Le MAE de Kaiming est également cité dans les références. Par conséquent, on suppose que la couche inférieure de Sora utilise également une méthode d’entraînement de type MAE.

Les chercheurs ont également exploré la simulation de lois physiques simples par le modèle génératif VDT. Ils ont mené des expériences sur l'ensemble de données Physion, dans lequel VDT utilise les 8 premières images comme images conditionnelles et prédit les 8 images suivantes. Dans le premier exemple (les deux rangées du haut) et le troisième exemple (les deux rangées du bas), VDT simule avec succès des processus physiques impliquant une balle se déplaçant le long d'une trajectoire parabolique et une balle roulant sur un avion et entrant en collision avec un cylindre. Dans le deuxième exemple (deux rangées du milieu), le VDT capture la vitesse/l'élan de la balle lorsqu'elle s'arrête avant de frapper le cylindre. Cela prouve que l'architecture Transformer peut apprendre certaines lois physiques.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

VDT ablate partiellement la structure du réseau. On peut constater que les performances du modèle sont fortement liées aux GFlops et que certains détails de la structure du modèle lui-même n'ont pas un grand impact. Cela est également cohérent avec les conclusions de DiT.

Les chercheurs ont également mené des études d'ablation structurelle sur le modèle VDT. Les résultats montrent que la réduction de la taille du patch, l'augmentation du nombre de couches et l'augmentation de la taille cachée peuvent encore améliorer les performances du modèle. Les positions de l'attention temporelle et spatiale ainsi que le nombre de têtes d'attention ont peu d'impact sur les résultats du modèle. Certains compromis de conception sont nécessaires, mais dans l'ensemble, il n'y a pas de différence significative dans les performances du modèle tout en conservant les mêmes GFlops. Cependant, une augmentation des GFlops conduit à de meilleurs résultats, démontrant l’évolutivité de l’architecture VDT ou Transformer.

Les résultats des tests de VDT démontrent l'efficacité et la flexibilité de l'architecture Transformer dans le traitement de la génération de données vidéo. En raison des limites des ressources informatiques, les expériences VDT n'ont été menées que sur quelques petits ensembles de données académiques. Nous attendons avec impatience les recherches futures pour explorer davantage de nouvelles directions et applications de la technologie de génération vidéo basée sur le VDT, et nous attendons également avec impatience que les entreprises chinoises lancent des modèles Sora nationaux dès que possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer