Tencent Hunyuan estime que l'architecture MoE qui peut résoudre un grand nombre de tâches générales est également le meilleur choix pour les scénarios de compréhension multimodaux. Le MoE peut être mieux compatible avec un plus grand nombre de modalités et de tâches, garantissant que les différentes modalités et tâches se renforcent mutuellement plutôt que de se concurrencer.
模 Diagramme schématique de l'architecture du modèle multimodal à éléments mixtes Tencent
Simple et à grande échelle En plus d'utiliser l'architecture MOE, la conception du modèle multimode à éléments mixtes Tencent également suit des principes simples et raisonnables d'évolutivité :
Prend en charge les résolutions arbitraires natives : par rapport aux méthodes traditionnelles de résolution fixe ou de sous-graphe découpé, le modèle multimodal hybride de Tencent peut traiter des images natives de n'importe quelle résolution. modèle multimodal pour prendre en charge la compréhension des images avec des résolutions supérieures à 7K et n'importe quel rapport hauteur/largeur (par exemple 16:1, voir l'exemple ci-dessous).
-
Utilisation d'un simple adaptateur MLP : par rapport au précédent adaptateur Q-former grand public, l'adaptateur MLP a moins de perte lors de la transmission des informations.
Cette conception simple facilite l'expansion et la mise à l'échelle des modèles et des données.
SuperClue-V se classe premier dans la liste nationaleEn août 2024, SuperCLUE a publié pour la première fois la liste d'évaluation de la compréhension multimodale - SuperClue-V.
Le benchmark SuperCLUE-V comprend deux directions générales : les capacités de base et les capacités d'application. Il évalue les grands modèles multimodaux sous forme de questions ouvertes, comprenant 8 dimensions de premier niveau et 30 dimensions de deuxième niveau.
Dans cette évaluation, le système de compréhension multimodale Hunyuan, hunyuan-vision, a obtenu un score de 71,95, juste derrière GPT-4o. En termes d'applications multimodales, hunyuan-vision devance Claude3.5-Sonnet et Gemini-1.5-Pro.
Il convient de noter que les évaluations multimodales précédentes dans l'industrie se concentraient principalement sur la maîtrise de l'anglais et que la plupart des questions d'évaluation étaient des questions à choix multiples ou des questions vrai-faux. L’évaluation SuperCLUE-V se concentre davantage sur l’évaluation des compétences en chinois et se concentre sur les problèmes réels des utilisateurs. De plus, puisqu’il s’agit de la première version, le surapprentissage ne s’est pas encore produit.
Tencent Hunyuan Graphics and Text Large Model montre de bonnes performances dans plusieurs dimensions telles que les scènes générales, la reconnaissance et la compréhension OCR d'images, ainsi que la compréhension et le raisonnement des éléments chinois, et reflète également le potentiel du modèle dans les applications futures. .
Destiné aux scénarios d'application généraux
Le modèle de compréhension multimodale à éléments mixtes est optimisé pour les scénarios généraux et les applications massives, et a accumulé des dizaines de millions de corpus de questions et réponses connexes, couvrant les bases compréhension d'images, création de contenu, il peut être utilisé dans de nombreux scénarios tels que l'analyse du raisonnement, les questions et réponses de connaissances, l'analyse de documents OCR et la réponse au sujet. Voici quelques exemples d'applications typiques.
Voici des exemples plus typiques :
Convertir une image en tableau texte :
Expliquer un morceau de code :
Analyser une facture :
Description Contenu de l'image :
Résoudre des problèmes de mathématiques :
Analyser en fonction du contenu de l'image :
Vous aider à rédiger une copie :
À l'heure actuelle, le grand modèle de compréhension multimodale Hunyuan de Tencent a été lancé dans le produit d'assistant d'IA Tencent Yuanbao et est ouvert aux entreprises et aux développeurs individuels via Tencent Cloud.
Adresse Tencent Yuanbao : https://yuanbao.tencent.com/chat
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!