Maison >Périphériques technologiques >IA >Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

WBOY
WBOYavant
2023-11-17 23:39:011114parcourir

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Le 16 novembre, Google a récemment publié un communiqué de presse présentant Mirasol, un petit modèle d'intelligence artificielle capable de répondre aux questions sur les vidéos et d'établir de nouveaux records.

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Il est actuellement difficile pour les modèles d'IA de gérer différents flux de données. Si vous souhaitez que l'IA comprenne la vidéo, vous devez intégrer des informations provenant de différentes modalités telles que la vidéo, l'audio et le texte, ce qui augmente considérablement la difficulté.

Des chercheurs de Google et de Google Deepmind ont proposé de nouvelles méthodes pour étendre la compréhension multimodale au domaine des vidéos longues.

Avec le modèle Mirasol AI, l'équipe a travaillé pour résoudre deux défis clés :

    La nécessité de synchroniser la vidéo et l'audio à des fréquences d'échantillonnage élevées, mais de traiter les titres et les descriptions vidéo de manière asynchrone.
  • La vidéo et l'audio génèrent une grande quantité de données, ce qui peut mettre à rude épreuve la capacité du modèle.
À Mirasol, Google a adopté le modèle de combineur et de convertisseur autorégressif

Ce composant de modèle traitera les signaux vidéo et audio synchronisés dans le temps, puis divisera la vidéo en segments indépendants

Le convertisseur traite chaque fragment et apprend les connexions entre chaque fragment utilise ensuite un autre transformateur pour traiter le texte contextuel, les deux composants échangeant des informations sur leurs entrées respectives.

Un nouveau module de transformation appelé Combiner est capable d'extraire une représentation commune de chaque fragment et de compresser les données grâce à une réduction de dimensionnalité. Chaque clip contient 4 à 64 images, et le modèle dispose actuellement de 3 milliards de paramètres et peut gérer des vidéos de 128 à 512 images

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Lors des tests, Mirasol3B a atteint une nouvelle référence en matière d'analyse de problèmes vidéo, avec un volume nettement plus petit et peut gérer des vidéos plus longues. En utilisant une variante de combinateur avec mémoire, l'équipe a pu réduire encore la puissance de calcul requise de 18%

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Google lance Mirasol : 3 milliards de paramètres, étendant la compréhension multimodale aux longues vidéos

Ce site joint ici la

version officielle de Mirasol Press release , les utilisateurs intéressés peuvent le lire en profondeur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer