Maison  >  Article  >  Périphériques technologiques  >  À égalité en première place avec GPT-4, le benchmark LMSYS montre que le modèle Claude-3 est performant

À égalité en première place avec GPT-4, le benchmark LMSYS montre que le modèle Claude-3 est performant

WBOY
WBOYavant
2024-03-28 17:26:43436parcourir

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Nouvelles du 28 mars, selon le dernier rapport de référence publié par LMSYS Org, Claude-3 a dépassé de peu GPT-4 et est devenu le « meilleur » grand modèle de langage sur la plateforme.

Ce site Web présente d'abord LMSYS Org, qui est une organisation de recherche créée conjointement par l'Université de Californie à Berkeley, l'Université de Californie à San Diego et l'Université Carnegie Mellon.

Le système lance Chatbot Arena, une plateforme de référence pour les grands modèles de langage (LLM), qui utilise le crowdsourcing pour tester de manière anonyme et aléatoire des produits de grands modèles. Ses évaluations sont basées sur le système de notation Elo largement utilisé dans les jeux compétitifs tels que les échecs.

Grâce aux résultats d'évaluation générés par le vote des utilisateurs, le système sélectionnera au hasard deux robots de grand modèle différents pour discuter avec les utilisateurs à chaque fois, et permettra aux utilisateurs de choisir de manière anonyme quel produit de grand modèle est globalement le plus performant.

Chatbot Arena Depuis son lancement l'année dernière, GPT-4 occupe fermement la première place et est même devenu la référence en matière d'évaluation des grands modèles.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Cependant, hier, Claude 3 Opus d'Anthropic a battu GPT-4 par une faible marge de 1253 à 1251, et le LLM d'OpenAI a été repoussé de la première place. Parce que le score était trop serré, l'agence a laissé Claude 3 et GPT-4 ex æquo pour la première place en raison de considérations de taux d'erreur, et une autre version préliminaire de GPT-4 a également été ex æquo pour la première place.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Encore plus impressionnant, Claude 3 Haiku fait son entrée dans le top dix. Haiku est le modèle de taille locale d’Anthropic, équivalent au Gemini Nano de Google.

Il est beaucoup plus petit qu'Opus qui possède des milliards de paramètres, il est donc beaucoup plus rapide en comparaison. Selon les données LMSYS, Haiku se classe septième sur la liste, avec des performances comparables à GPT-4.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer