Maison >Périphériques technologiques >IA >A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

PHPzoriginal: 2024-06-29 00:25:011043parcourir

Récemment, le grand modèle de Yuncong Technology a fait des progrès significatifs dans le domaine de l'évaluation multimodale d'OpenCompass, la plateforme d'évaluation complète faisant autorité. Les derniers résultats d'évaluation montrent que le score moyen du grand modèle Congrong de Yuncong Technology dans ce système est de 65,5. Ce résultat place le grand modèle Congrong parmi les trois premiers au monde, dépassant le Gemini-1.5-Pro et le GPT-4v de Google. se classant deuxième sur GPT-4o (69,9) et Claude3.5-Sonnet (67,9). Sur le marché intérieur, les performances du grand modèle ont également dépassé InternVL-Chat (61,7) et GLM-4V (60,8), se classant au premier rang.

1. Liste multimodale OpenCompass

Le système d'évaluation ouvert à grand modèle OpenCompass est un cadre d'évaluation open source complet et reproductible lancé par le laboratoire d'intelligence artificielle de Shanghai.
L'évaluation multimodale OpenCompass utilise 8 ensembles de données représentatifs pour quantifier objectivement les capacités des grands modèles multimodaux sous plusieurs perspectives et évalue la couverture dimensionnelle :
- Détection de cible
- Reconnaissance de texte
- Reconnaissance d'action
- Compréhension de l'image et raisonnement relationnel
- Art et design
- Business
- Sciences
- Santé et médecine
- Sciences humaines et sociales
- Technologie et ingénierie
- Raisonnement mathématique
  Figure 2 : Calm grand modèle-2.0 Exemples de multimodal capacités

Dans cette évaluation, le grand modèle Congrong a bien fonctionné dans 6 des ensembles de données, se classant premier dans le pays (MMbench, MMStar, MathVista, HallusionBench, AI2D, OCRBench), en particulier dans Sur l'ensemble de test OCRBench, il a obtenu le score le plus élevé au monde avec 827 points (sur 1000 points), et était 13 points de plus que le GLM-4v, deuxième place, améliorant encore la capacité du grand modèle Ronong en matière de reconnaissance de texte et de question visuelle centrée sur le texte. réponse et orienté document L'applicabilité dans des scénarios commerciaux tels que la réponse visuelle aux questions et l'extraction d'informations clés.

A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

Figure 3 : Démonstration des capacités des grands modèles d'OpenCompass China

Les excellentes performances du grand modèle Rongrong dans ce système reposent sur l'architecture de traitement multimodale efficace et la technologie informatique avancée développée indépendamment par Yuncong Technology pour obtenir un multimodal efficace. Les capacités de traitement des données modales peuvent réaliser une fusion et une commutation efficaces entre les tâches visuelles et linguistiques, et maximiser l'utilisation des ressources informatiques pour garantir que des performances et une vitesse de réponse élevées peuvent être maintenues lors du traitement de données multimodales à grande échelle, créant ainsi le modèle Le processus de formation est plus efficace, la vitesse de convergence est plus rapide et les performances sont plus stables.

Dans le même temps, il bénéficie également de l’accumulation profonde à long terme et de l’innovation continue de Yuncong Technology dans les domaines de la vision et du langage.

A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

Exemple de capacité multimodale 2.0, classé parmi les cinq premiers au monde.

En tant qu'entreprise de plateforme axée sur la recherche et le développement de technologies de collaboration homme-machine,

Yuncong Technology promeut activement le développement et l'application des agents IA et de la technologie des grands modèles. Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles multimodaux sont devenus le principal moteur du changement industriel. Les performances exceptionnelles du modèle Rongrong dans le

OpenCompass grand modèle d'évaluation ouvert

ne sont pas seulement une reconnaissance de la force d'innovation technologique de Yuncong Technology, mais donnent également l'exemple dans l'industrie et inspirent les entreprises technologiques mondiales dans le nouveau cycle. de l’intelligence artificielle. Atteignez les sommets de la compétition.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构人工智能 gpt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：L'équipe Bengio propose un nouveau benchmark multimodal, ciblant les faiblesses de Claude 3.5 et GPT-4oArticle suivant：L'équipe Bengio propose un nouveau benchmark multimodal, ciblant les faiblesses de Claude 3.5 et GPT-4o

Articles Liés

Voir plus

A vaincu Gemini-1.5-Pro ​​​​et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles

Articles Liés

A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles