Maison >Périphériques technologiques >IA >GPT-4 a refusé d'accepter et a été dépassé par Bard : le dernier modèle est entré sur le marché
La liste faisant autorité du « Concours de qualification des grands modèles » Chatbot Arena a été actualisée :
Google Bard a dépassé GPT-4 et s'est classé deuxième, juste derrière GPT-4 Turbo.
Cependant, de nombreux internautes ont exprimé leur « mécontentement » et leur « injustice » à ce sujet.
Il s'avère que Jeff Dean, responsable de l'IA de Google, a révélé que les performances de Bard ont été grandement améliorées car il est équipé d'une nouvelle version du grand modèle Gemini Pro-scale.
Cela signifie également que Bard jouant des « matchs classés » a la possibilité de se connecter à Internet.
Les doutes des internautes tournent autour de ce point :
Il est extrêmement facile de provoquer des malentendus en mélangeant de gros modèles en ligne et hors ligne sur un même classement.
Omar Sanseviero, "Chief Alpaca Officer" de Hugging Face, a également déclaré :
Dans ce cas... puis-je également soumettre Mixtral avec fonctionnalité de recherche à lmsys ?
Face à divers doutes, Imsys a officiellement répondu en déclarant :
Et directement @OpenAI et Bing, ainsi que le dirigeant de Microsoft Mikhail Parakhin, exprimant leur volonté d'ajouter la version en ligne GPT-4 ou Bing Copilot à l'arène.
Les dernières nouvelles sont que le dernier modèle d'OpenAI, gpt-4-0125-preview, est maintenant entré dans l'arène et attend que les utilisateurs participent au vote.
Comment Bard a-t-il surpassé GPT-4 ?
Ce classement utilise des règles de vote anonymes 1V1battle et est classé sur la base du système de notation Elo.
Plus précisément, la page de vote est la suivante. Les deux modèles, Modèle A et B, sont tous deux anonymes. Les utilisateurs évaluent les réponses du modèle après avoir posé plusieurs questions : A est meilleur, B est meilleur, et A et B. A et B sont tous deux également bons.
Il convient de mentionner que si l'identité du modèle est divulguée pendant le processus de questions et réponses, le vote sera invalide.
Selon la liste actuelle, il y a 56 grands modèles dans l'arène :
Auparavant, GPT-4 a longtemps dominé la liste avec son score "loin devant" Cependant, après la sortie. de la nouvelle version de Bard, il a directement surpassé GPT- Les deux versions de 4 se sont précipitées à la deuxième place, et n'étaient qu'à 34 points de la première place GPT-4 Turbo :
Plus en détail, dans tous les modèles Matchs A contre B sans égalité, Modèle La proportion gagnante de A est la suivante :
et le nombre de matchs en tête-à-tête pour chaque paire de combinaisons de modèles
(pas d'égalité):
De plus, les classements Chatbot Arena utilisent le bootstrapping pour échantillonner aléatoirement les estimations du score Elo 1 000 fois afin d'évaluer les intervalles de confiance et plus encore.
Le taux de victoire moyen d'un seul modèle par rapport à tous les autres modèles est le suivant :
Cependant, il convient de noter que le classement Arena est en temps réel, et bien que Bard soit actuellement classé deuxième, il ne dispose que d'un total de plus de 3 000 voix.
En comparaison, le nombre de votes pour GPT-4 Turbo a atteint plus de 30 000, et les votes des deux versions qui ont été dépassées sont également plusieurs fois supérieurs à ceux de Bard.
Maintenant que la dernière version de GPT-4 est entrée sur le marché (même si elle n'a pas encore été mise à jour sur le classement), nous devons attendre les résultats ultérieurs~
Lien de référence : https:// twitter.com/lmsysorg/status/1752035632489300239.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!