Maison >Périphériques technologiques >IA >Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin

Le grand modèle de langage bat le modèle de diffusion ! Génération d'images vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de l'Université de Pékin

PHPzavant: 2023-10-16 14:29:01977parcourir

Le modèle de langage bat le modèle de diffusion et réalise le double SOTA en génération de vidéo et d'image !

Il s'agit du dernier résultat de recherche de Google CMU.

Selon les rapports, c'est la première fois qu'un modèle de langage bat un modèle de diffusion sur le benchmark emblématique ImageNet.

Le composant clé derrière cela est le

visual tokenizer (video tokenizer), qui peut mapper l'entrée de l'espace de pixels en jetons adaptés à l'apprentissage LLM.

L'équipe de recherche Google CMU a proposé MAGVIT-v2, qui a surpassé le précédent meilleur segmenteur de mots visuel dans deux autres tâches.

Le grand modèle de langage bat le modèle de diffusion

Il a été convenu que les grands modèles de langage ont d'excellentes performances dans divers domaines génératifs. Tels que le texte, l'audio, la génération de code, etc.

Mais les modèles linguistiques ont toujours été à la traîne des modèles de diffusion en termes de génération visuelle.

L'équipe estime que la raison principale est le manque d'une bonne représentation visuelle, similaire à un système linguistique auto-développé, capable de modéliser efficacement le monde visuel. Contrairement au langage naturel, les humains n’ont pas développé un vocabulaire optimal pour le monde visuel. Cela limite également les capacités de génération visuelle des grands modèles de langage.

Sur la base de ce jugement, cette recherche a principalement réalisé trois tâches :

Une nouvelle méthode de quantification sans recherche qui améliore la qualité de génération visuelle des modèles de langage en apprenant de grands vocabulaires
Pour la première fois, des preuves montrent que sous les mêmes données de formation, des tailles de modèles équivalentes et des budgets de formation similaires Dans les conditions, le modèle de langage bat le modèle de diffusion sur ImageNet.

Selon l'auteur, c'est aussi la première fois qu'un tokenizer visuel parvient à obtenir des résultats comparables aux codecs standards.

Basée sur le tokenizer visuel SOTA original

MAGVIT (Masked Generative Video Transformer), cette méthode réalise principalement deux conceptions : la quantification sans recherche (LFQ) et le tokenizer conjoint image-vidéo.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

Enfin, en génération vidéo/image, ImageNet 512×512 et Kinetics-600 sont tous deux meilleurs que le modèle de diffusion.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

En termes de compression vidéo et de reconnaissance d'action, c'est également meilleur que les résultats précédents.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

One est un ancien élève de l'Université de Pékin

Yu Lijun est actuellement doctorant à l'Institut de technologie du langage, École d'informatique, CMU, étudiant sous la direction du professeur Alexander G. Hauptmann, et est également étudiant chercheur chez Google. . Les intérêts de recherche résident dans les modèles de base multimodaux, notamment la génération de vidéos multitâches.

Avant de rejoindre la CMU, il a obtenu un double baccalauréat en informatique et en économie de l'Université de Pékin.

Le grand modèle de langage bat le modèle de diffusion ! Génération dimages vidéo double SOTA, la dernière recherche de Google CMU, un ancien élève de lUniversité de Pékin

J'ai également vu de nombreux autres visages chinois dans l'équipe de recherche.

L'auteur correspondant Jiang Lu est actuellement scientifique chez Google Research et professeur adjoint à la CMU.

Ses recherches portent principalement sur le domaine du big data multimodal, notamment le deep learning robuste, l'intelligence artificielle générative et les modèles de base multimodaux.

Lien papier :
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Token 人工智能 transformer https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Qu’est-ce qu’un humain numérique et que nous réserve l’avenir ?Article suivant：Qu’est-ce qu’un humain numérique et que nous réserve l’avenir ?

Articles Liés

Voir plus