Maison >Périphériques technologiques >IA >Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin
Le modèle de langage bat le modèle de diffusion et réalise le double SOTA en génération de vidéo et d'image !
Il s'agit du dernier résultat de recherche de Google CMU.
Selon les rapports, c'est la première fois qu'un modèle de langage bat un modèle de diffusion sur le benchmark emblématique ImageNet.
Le composant clé derrière cela est levisual tokenizer (video tokenizer), qui peut mapper l'entrée de l'espace de pixels en jetons adaptés à l'apprentissage LLM.
L'équipe de recherche Google CMU a proposé MAGVIT-v2, qui a surpassé le précédent meilleur segmenteur de mots visuel dans deux autres tâches. Le grand modèle de langage bat le modèle de diffusionIl a été convenu que les grands modèles de langage ont d'excellentes performances dans divers domaines génératifs. Tels que le texte, l'audio, la génération de code, etc. Mais les modèles linguistiques ont toujours été à la traîne des modèles de diffusion en termes de génération visuelle. L'équipe estime que la raison principale est le manque d'une bonne représentation visuelle, similaire à un système linguistique auto-développé, capable de modéliser efficacement le monde visuel. Contrairement au langage naturel, les humains n’ont pas développé un vocabulaire optimal pour le monde visuel. Cela limite également les capacités de génération visuelle des grands modèles de langage. Sur la base de ce jugement, cette recherche a principalement réalisé trois tâches :MAGVIT (Masked Generative Video Transformer), cette méthode réalise principalement deux conceptions : la quantification sans recherche (LFQ) et le tokenizer conjoint image-vidéo.
Lien papier :
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!