Maison >Périphériques technologiques >IA >A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles
Récemment, le grand modèle de Yuncong Technology a fait des progrès significatifs dans le domaine de l'évaluation multimodale d'OpenCompass, la plateforme d'évaluation complète faisant autorité. Les derniers résultats d'évaluation montrent que le score moyen du grand modèle Congrong de Yuncong Technology dans ce système est de 65,5. Ce résultat place le grand modèle Congrong parmi les trois premiers au monde, dépassant le Gemini-1.5-Pro et le GPT-4v de Google. se classant deuxième sur GPT-4o (69,9) et Claude3.5-Sonnet (67,9). Sur le marché intérieur, les performances du grand modèle ont également dépassé InternVL-Chat (61,7) et GLM-4V (60,8), se classant au premier rang.
1. Liste multimodale OpenCompassL'évaluation multimodale OpenCompass utilise 8 ensembles de données représentatifs pour quantifier objectivement les capacités des grands modèles multimodaux sous plusieurs perspectives et évalue la couverture dimensionnelle :
Dans cette évaluation, le grand modèle Congrong a bien fonctionné dans 6 des ensembles de données, se classant premier dans le pays (MMbench, MMStar, MathVista, HallusionBench, AI2D, OCRBench), en particulier dans Sur l'ensemble de test OCRBench, il a obtenu le score le plus élevé au monde avec 827 points (sur 1000 points), et était 13 points de plus que le GLM-4v, deuxième place, améliorant encore la capacité du grand modèle Ronong en matière de reconnaissance de texte et de question visuelle centrée sur le texte. réponse et orienté document L'applicabilité dans des scénarios commerciaux tels que la réponse visuelle aux questions et l'extraction d'informations clés.
Figure 3 : Démonstration des capacités des grands modèles d'OpenCompass ChinaLes excellentes performances du grand modèle Rongrong dans ce système reposent sur l'architecture de traitement multimodale efficace et la technologie informatique avancée développée indépendamment par Yuncong Technology pour obtenir un multimodal efficace. Les capacités de traitement des données modales peuvent réaliser une fusion et une commutation efficaces entre les tâches visuelles et linguistiques, et maximiser l'utilisation des ressources informatiques pour garantir que des performances et une vitesse de réponse élevées peuvent être maintenues lors du traitement de données multimodales à grande échelle, créant ainsi le modèle Le processus de formation est plus efficace, la vitesse de convergence est plus rapide et les performances sont plus stables.
Dans le même temps, il bénéficie également de l’accumulation profonde à long terme et de l’innovation continue de Yuncong Technology dans les domaines de la vision et du langage.
Exemple de capacité multimodale 2.0, classé parmi les cinq premiers au monde. En tant qu'entreprise de plateforme axée sur la recherche et le développement de technologies de collaboration homme-machine,Yuncong Technology promeut activement le développement et l'application des agents IA et de la technologie des grands modèles. Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles multimodaux sont devenus le principal moteur du changement industriel. Les performances exceptionnelles du modèle Rongrong dans le
OpenCompass grand modèle d'évaluation ouvertne sont pas seulement une reconnaissance de la force d'innovation technologique de Yuncong Technology, mais donnent également l'exemple dans l'industrie et inspirent les entreprises technologiques mondiales dans le nouveau cycle. de l’intelligence artificielle. Atteignez les sommets de la compétition.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!