Maison >Tutoriel matériel >Examen du matériel >Regardez un film de 2 heures en 4 secondes ! Alibaba lance le grand modèle multimodal universel mPLUG-Owl3
Après avoir regardé un film de 2 heures en 4 secondes, la nouvelle réalisation de l'équipe Alibaba a été officiellement dévoilée -
a lancé le grand modèle multimodal général mPLUG-Owl3, spécialement utilisé pour comprendre plusieurs images et de longues vidéos.
Plus précisément, en utilisant LLaVA-Next-Interleave comme référence, mPLUG-Owl3 réduit la latence du premier jeton du modèle de 6 fois, et un seul Le nombre d'images que l'A100 peut modéliser a été multiplié par huit pour atteindre 400 images. Selon les mesures réelles, un film de 2 heures peut être regardé en 4 secondes.
En d’autres termes, l’efficacité du raisonnement du modèle a été grandement améliorée.
sans sacrifier la précision du modèle.
mPLUG-Owl3 a également atteint SOTA dans divers scénarios impliquant de grands modèles multimodaux, y compris des champs d'image unique, multi-images et vidéo.
Les auteurs de l'article sont issus de l'équipe Alibaba mPLUG. Ils ont également été profondément impliqués dans les grandes bases multimodales. proposé:
#🎜 🎜#Base multimodale efficace série mPLUGBase de modèle de langage grand multimodal modulaire mPLUG-série OwlBase de compréhension des documents mPLUG- Série DocOwl# 🎜🎜# Jetons un coup d'œil à la technologie noire apportée par cette version de mPLUG-Owl3. L'équipe a démontré plusieurs utilisations courantes de mPLUG-Owl3.
Amélioration de la récupération multimodale
De manière générale, il est courant de compléter les connaissances que le modèle n'a pas acquises via le système de récupération. Cela nécessite que le modèle comprenne avec précision les connaissances multimodales entrantes et les utilise pour répondre aux questions.
Dans l'exemple suivant, mPLUG-Owl3 peut non seulement répondre correctement en fonction des connaissances récupérées, mais également donner un jugement en fonction de l'élément de connaissance sur lequel il est basé et fournir une base de jugement détaillée. Ceci est très convivial pour le personnel de R&D en aval pour le développement et le débogage.
Section de récupération : Voici plusieurs connaissances multimodales récupérées pour que vous puissiez prendre une décision.
Question : D'après vos observations des quatre photos de chiens ci-dessus, pouvez-vous classer le chien de la photo 5 ? Donnez des raisons.
Réponse : Sur la base des observations des quatre photos de chiens, le chien de la photo 5 peut être classé comme un Terrier irlandais. Le chien de la photo 1 est décrit comme un Terrier irlandais et le chien de la photo 5 présente des similitudes physiques avec le chien de la photo 1...
# 🎜🎜#multiple raisonnement d'image
Des situations comme celle-ci se produisent souvent dans la vie -
De nombreux utilisateurs n'ont pas seulement des conversations autour d'une image, mais les utilisateurs peuvent avoir plusieurs copies. Les matériaux nécessitent des modèles qui peuvent correctement. comprendre la relation entre le contenu de différents matériaux.
Dans un autre exemple, mPLUG-Owl3 peut non seulement détecter la différence de style entre les deux images, mais également être conscient des personnages des deux images Bien que les styles soient différents, il s’agit en fait du même personnage.
Première question : Quels styles artistiques sont représentés dans les images et en quoi sont-ils différents ?
Réponse : La première image est en style pixel, la deuxième image est en style dessin animé... (donnez la raison)
Compréhension des vidéos longues
Regarder de très longues vidéos est une tâche que la plupart des modèles ne peuvent pas accomplir de bout en bout. Basé sur le framework Agent, il est difficile de garantir la vitesse de réponse.
mPLUG-Owl3 peut regarder un film de 2 heures et commencer à répondre aux questions des utilisateurs en 4 secondes.
Comment as-tu fait ?
Contrairement aux modèles traditionnels, mPLUG-Owl3 n'a pas besoin de fusionner à l'avance la séquence visuelle dans la séquence de texte du modèle de langage.
En d'autres termes, peu importe ce qui est entré (des dizaines d'images ou des heures de vidéo), il n'occupe pas la capacité de séquence du modèle de langage, ce qui évite l'énorme surcharge de calcul et de mémoire vidéo causée par de longs visuels séquences occupées.
Pour y parvenir, l'équipe a proposé un module Hyper Attention léger, qui peut étendre un bloc Transformer existant qui ne peut modéliser que du texte. Il devient un nouveau module capable de faire du graphique et l'interaction des fonctionnalités de texte et la modélisation de texte en même temps.
En étendant légèrement 4 blocs Transformer à travers l'ensemble du modèle de langage, mPLUG-Owl3 peut mettre à niveau LLM vers le multi-mode à un très faible coût.
Une fois les caractéristiques visuelles extraites de l'encodeur visuel, les dimensions sont alignées sur les dimensions du modèle de langage via un simple mappage linéaire.
Par la suite, les fonctionnalités visuelles n'interagiront qu'avec le texte dans ces 4 couches de Transformer Block. Puisque le jeton visuel n'a subi aucune compression, des informations fines peuvent être conservées.
Jetons un coup d'œil à la façon dont l'Hyper Attention est conçue.
Hyper Attention Afin de permettre au modèle de langage de percevoir les caractéristiques visuelles, une opération d'Attention croisée est introduite, utilisant les caractéristiques visuelles comme clé et valeur, et utilisant l'état caché du modèle de langage comme requête pour extraire les caractéristiques visuelles.
Ces dernières années, d'autres recherches ont également envisagé d'utiliser Cross-Attention pour la fusion multimodale, comme Flamingo et IDEFICS, mais ces travaux n'ont pas atteint de bonnes performances.
Dans le rapport technique de mPLUG-Owl3, l'équipe a comparé la conception de Flamingo pour expliquer plus en détail les points techniques clés d'Hyper Attention :
#🎜🎜 #
Introduisez des images non pertinentes pour chaque échantillon d'évaluation du cycle MMBench et perturbez l'ordre des images, puis posez des questions sur les images originales pour voir si le modèle peut répondre correctement et de manière stable. (Pour la même question, 4 échantillons avec un ordre différent d'options et d'images d'interférence seront construits, et une seule bonne réponse sera enregistrée si toutes les réponses sont correctes.)
L'expérience est divisée en plusieurs niveaux en fonction du nombre d'entrées. des photos.
On peut constater que les modèles sans formation multi-graphiques tels que Qwen-VL et mPLUG-Owl2 ont rapidement échoué.
LLAVA-Next-Interleave et Mantis, qui ont été formés sur plusieurs images, peuvent maintenir une courbe de désintégration similaire à celle de mPLUG-Owl3 au début, mais à mesure que le nombre d'images atteint le niveau de 50, ces modèles peuvent ne répond plus correctement.
Et mPLUG-Owl3 peut maintenir une précision de 40 % même avec 400 photos.
Cependant, il y a une chose à dire. Bien que mPLUG-Owl3 surpasse les modèles existants, sa précision est loin d'être un excellent niveau. On peut seulement dire que cette méthode d'évaluation révèle la capacité anti-interférence de tous les modèles sous de longues séquences. doit encore être amélioré à l’avenir.
Pour plus de détails, veuillez vous référer au papier et au code.
Papier : https://arxiv.org/abs/2408.04840
Code : https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo (câlin) : https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo (Magic Community) : https://modelscope.cn/studios/iic/mPLUG-Owl3
Modèle 7B (câlin) : https:// /huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
Modèle 7B (Magic Community) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728
— Fin—
Veuillez envoyer un e-mail à :
ai@qbitai.com
Indiquez le titre et dites-nous :
Qui êtes-vous, d'où venez-vous, le contenu de votre soumission
Joignez le lien vers la page d'accueil de l'article/du projet et contactez informations
Nous vous répondrons (autant que possible) à temps
Cliquez ici pour me suivre et n'oubliez pas de mettre une étoile~
"Partager", "J'aime" et "Regarder" en trois clics
À tous les jours pour le progrès de pointe de la science et de la technologie ~
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!