Maison  >  Article  >  Périphériques technologiques  >  HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant d'abord la perception humaine puis la cognition, pour localiser avec précision les objets dans l'image

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant d'abord la perception humaine puis la cognition, pour localiser avec précision les objets dans l'image

PHPz
PHPzoriginal
2024-06-12 22:18:00684parcourir

Actuellement, Grand Modèle Multimodal(MLLM)a démontré de fortes capacités de compréhension cognitive sur plusieurs tâches visuelles.

Cependant, la plupart des grands modèles multimodaux se limitent à une compréhension unidirectionnelle de l'image, ce qui rend difficile le mappage du contenu compris à l'image.

Par exemple, le modèle peut facilement déterminer quels objets se trouvent dans l'image, mais il ne peut pas identifier avec précision les objets dans l'image.

Le manque de capacités de positionnement limite directement l'application des grands modèles multimodaux dans des domaines en aval tels que l'édition d'images, la conduite autonome et le contrôle des robots.

En réponse à ce problème, des chercheurs de l'Université de Hong Kong et l'équipe de commercialisation de ByteDance ont proposé un nouveau paradigme Groma -

améliore les capacités de positionnement perceptuel des grands modèles multimodaux grâce à un codage d'image régional.

Après avoir intégré le positionnement, Groma peut connecter directement le contenu du texte et les zones d'image, améliorant ainsi considérablement l'interactivité et la directionnalité des conversations. Cette méthode ne change pas le sens original, mais n’ajuste que légèrement l’expression.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage
HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage

Idée de base

Comment donner aux grands modèles multimodaux la possibilité de localiser des objets, c'est-à-dire d'associer le contenu du texte à des zones d'image pour obtenir des « mots significatifs », est actuellement un point chaud de recherche majeur. Le but du grand modèle multimodal est de pouvoir trouver la région de l'image correspondant à la description lorsqu'on lui donne une image et la description textuelle correspondante. Cette tâche est appelée problème d’alignement image-texte. Afin de résoudre ce problème, une approche courante consiste à affiner le grand modèle de langage pour générer directement les coordonnées des objets. Cependant, cette méthode présente de nombreuses limites :

1.

Le grand modèle de langage pré-entraîné sur le texte lui-même n'a pas la capacité de comprendre l'espace, et il est difficile de localiser avec précision des objets en s'appuyant uniquement sur une petite quantité de données pour réglage fin.

2.

Les tâches de positionnement ont des exigences élevées en matière de résolution des images d'entrée, mais augmenter la résolution augmentera considérablement la quantité de calcul des grands modèles multimodaux.

3.

La forme de sortie des grands modèles de langage n'est pas adaptée au traitement de tâches de positionnement fin, telles que la segmentation. Sur la base de ces considérations, Groma a proposé de transférer le positionnement au tokenizer de vision du grand modèle multimodal. Le tokenizer de vision découvre et localise les objets potentiels, puis les transmet au grand modèle de langage pour reconnaissance.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limageDans le même temps, cette conception exploite également pleinement la capacité de compréhension spatiale du tokenizer de vision lui-même, sans avoir besoin de modèles experts externes

(tels que SAM)

pour aider au positionnement, évitant ainsi la redondance de modèles externes. Plus précisément, Groma introduit le codage de région pour réaliser la fonction de positionnement basée sur le codage global d'image - comme le montre la figure ci-dessous, Groma utilise d'abord Region Proposer pour localiser les objets potentiels, puis utilise Region Encoder pour localiser les zones localisées une par une. Codé dans le jeton de région.

Le grand modèle de langage peut déterminer la région correspondante en fonction de la signification sémantique du jeton de région et obtenir un effet de type hyperlien en insérant le jeton de région dans la sortie pour obtenir une conversation visuellement fondée.

De même, la zone spécifiée par l'utilisateur peut également être codée dans le jeton de région correspondant via l'encodeur de région et insérée dans la commande utilisateur, afin que le modèle multimodal puisse se concentrer sur la zone spécifiée et générer des réponses directionnelles.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limageAfin d'améliorer la robustesse et la précision du positionnement, Groma utilise plus de 8 millions de données

(dont SA1B)

pour pré-entraîner le Proposant de Région. Par conséquent, les propositions qu’il génère incluent non seulement des objets communs, mais couvrent également des éléments tels que les composants de l’objet et le contexte plus large. De plus, grâce à la conception séparée, Groma peut utiliser des cartes de fonctionnalités haute résolution pour l'entrée du proposant de région/encodeur et des cartes de fonctionnalités basse résolution pour l'entrée de modèles volumineux, réduisant ainsi la quantité de calculs sans perdre les performances de positionnement.

Résultats expérimentaux

Groma a démontré des performances dépassant MiniGPT-v2 et Qwen-VL sur les benchmarks de mise à la terre traditionnels.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limageParallèlement, Groma a vérifié ses capacités de dialogue et de raisonnement sur le VQA Benchmark (LLaVA-COCO), commun aux grands modèles multimodaux.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage

Dans la comparaison visuelle, Groma a également montré un rappel plus élevé et moins d'hallucinations.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage

De plus, Groma prend également en charge le dialogue de référence et le chat ancré qui intègrent des capacités de dialogue et des capacités de positionnement.

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage

HKU Byte propose un nouveau paradigme de grands modèles multimodaux, simulant dabord la perception humaine puis la cognition, pour localiser avec précision les objets dans limage

Grâce aux puissantes capacités de raisonnement cognitif des grands modèles de langage, les grands modèles multimodaux fonctionnent de manière exceptionnelle dans les tâches de compréhension visuelle.

Cependant, certaines tâches de vision traditionnelles, telles que la segmentation de détection, l'estimation de la profondeur, etc., reposent davantage sur les capacités de perception visuelle, ce qui est précisément ce qui manque aux grands modèles de langage.

Groma propose une nouvelle solution à ce problème, qui consiste à découpler perception et cognition, avec le tokenizer de vision responsable de la perception et le grand modèle de langage responsable de la cognition.

Cette forme de perception d'abord, puis de cognition, est non seulement plus conforme aux processus visuels humains, mais évite également la surcharge de calcul liée au recyclage de grands modèles de langage.

Le 15 mai, ByteDance vient d'annoncer le grand modèle Doubao auto-développé, qui offre des capacités multimodales, prend en charge en aval plus de 50 entreprises telles que Doubao APP, Kouzi et Jimeng, et est ouvert aux entreprises clientes via le moteur Volcano pour aider les entreprises à améliorer leur efficacité et à accélérer l’innovation intelligente. À l'heure actuelle, Doubao APP est devenue l'application AIGC avec le plus grand nombre d'utilisateurs sur le marché chinois. ByteDance continue d'augmenter ses investissements dans les meilleurs talents et les technologies de pointe, et participe aux principaux défis et difficultés techniques de l'industrie.

Site Web du projet :
https://www.php.cn/link/07a81d45ff030b63fe2a0f375b779f09
Lien papier :
https://www.php.cn/link/ b82b80956cfbe75101bd223fe6319dec
Code source ouvert :
https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn