recherche
MaisonPériphériques technologiquesIAGPT-4 a refusé d'accepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

La liste faisant autorité du « Concours de qualification des grands modèles » Chatbot Arena a été actualisée :

Google Bard a dépassé GPT-4 et s'est classé deuxième, juste derrière GPT-4 Turbo.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Cependant, de nombreux internautes ont exprimé leur « mécontentement » et leur « injustice » à ce sujet.

Il s'avère que Jeff Dean, responsable de l'IA de Google, a révélé que les performances de Bard ont été grandement améliorées car il est équipé d'une nouvelle version du grand modèle Gemini Pro-scale.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Cela signifie également que Bard jouant des « matchs classés » a la possibilité de se connecter à Internet.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Les doutes des internautes tournent autour de ce point :

Il est extrêmement facile de provoquer des malentendus en mélangeant de gros modèles en ligne et hors ligne sur un même classement.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Omar Sanseviero, "Chief Alpaca Officer" de Hugging Face, a également déclaré :

Dans ce cas... puis-je également soumettre Mixtral avec fonctionnalité de recherche à lmsys ?

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Face à divers doutes, Imsys a officiellement répondu en déclarant :

  • Les classements Arena sont en temps réel Si vous avez des questions, vous pouvez comparer directement les modèles et voter dans Arena ; est ouvert et transparent, et des recherches sur la diversité des invites des utilisateurs et la qualité du vote ainsi que les ensembles de données correspondants seront bientôt publiées
  • Concernant le problème qui préoccupe le plus les internautes, GPT-4, qui a été dépassé par Bard, est un version hors ligne, Imsys a déclaré " Si l'accès aux données en temps réel peut améliorer l'expérience utilisateur, les classements le refléteront. "

Et directement @OpenAI et Bing, ainsi que le dirigeant de Microsoft Mikhail Parakhin, exprimant leur volonté d'ajouter la version en ligne GPT-4 ou Bing Copilot à l'arène.

Les dernières nouvelles sont que le dernier modèle d'OpenAI, gpt-4-0125-preview, est maintenant entré dans l'arène et attend que les utilisateurs participent au vote.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marchéComment Bard a-t-il surpassé GPT-4 ?

Chatbot Arena est une liste faisant autorité de grands modèles, créée par l'organisation Imsys (Large Model Systems Organization) dirigée par des chercheurs de l'UC Berkeley.

Ce classement utilise des règles de vote anonymes 1V1battle et est classé sur la base du système de notation Elo.

Plus précisément, la page de vote est la suivante. Les deux modèles, Modèle A et B, sont tous deux anonymes. Les utilisateurs évaluent les réponses du modèle après avoir posé plusieurs questions : A est meilleur, B est meilleur, et A et B. A et B sont tous deux également bons.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marchéIl convient de mentionner que si l'identité du modèle est divulguée pendant le processus de questions et réponses, le vote sera invalide.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marchéSelon la liste actuelle, il y a 56 grands modèles dans l'arène :

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché Auparavant, GPT-4 a longtemps dominé la liste avec son score "loin devant" Cependant, après la sortie. de la nouvelle version de Bard, il a directement surpassé GPT- Les deux versions de 4 se sont précipitées à la deuxième place, et n'étaient qu'à 34 points de la première place GPT-4 Turbo :

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marchéPlus en détail, dans tous les modèles Matchs A contre B sans égalité, Modèle La proportion gagnante de A est la suivante :

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché et le nombre de matchs en tête-à-tête pour chaque paire de combinaisons de modèles

(pas d'égalité)

 :

De plus, les classements Chatbot Arena utilisent le bootstrapping pour échantillonner aléatoirement les estimations du score Elo 1 000 fois afin d'évaluer les intervalles de confiance et plus encore.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Le taux de victoire moyen d'un seul modèle par rapport à tous les autres modèles est le suivant :

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Cependant, il convient de noter que le classement Arena est en temps réel, et bien que Bard soit actuellement classé deuxième, il ne dispose que d'un total de plus de 3 000 voix.

En comparaison, le nombre de votes pour GPT-4 Turbo a atteint plus de 30 000, et les votes des deux versions qui ont été dépassées sont également plusieurs fois supérieurs à ceux de Bard.

GPT-4 a refusé daccepter et a été dépassé par Bard : le dernier modèle est entré sur le marché

Maintenant que la dernière version de GPT-4 est entrée sur le marché (même si elle n'a pas encore été mise à jour sur le classement), nous devons attendre les résultats ultérieurs~

Lien de référence : https:// twitter.com/lmsysorg/status/1752035632489300239.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Les plus utilisés à 10 graphiques BI - Analytics vidhyaLes plus utilisés à 10 graphiques BI - Analytics vidhyaApr 16, 2025 pm 12:05 PM

Exploitation de la puissance de la visualisation des données avec les graphiques Microsoft Power BI Dans le monde actuel axé sur les données, la communication efficace des informations complexes à un public non technique est cruciale. La visualisation des données comble cet écart, transformant les données brutes i

Systèmes experts en IASystèmes experts en IAApr 16, 2025 pm 12:00 PM

Systèmes experts: une plongée profonde dans le pouvoir de prise de décision de l'IA Imaginez avoir accès à des conseils d'experts sur n'importe quoi, des diagnostics médicaux à la planification financière. C'est le pouvoir des systèmes experts en intelligence artificielle. Ces systèmes imitent le pro

Trois des meilleurs codeurs d'ambiance décomposent cette révolution de l'IA dans le codeTrois des meilleurs codeurs d'ambiance décomposent cette révolution de l'IA dans le codeApr 16, 2025 am 11:58 AM

Tout d'abord, il est évident que cela se produit rapidement. Diverses entreprises parlent des proportions de leur code actuellement écrites par l'IA, et elles augmentent à un clip rapide. Il y a déjà beaucoup de déplacement de l'emploi

Gen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurditéGen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurditéApr 16, 2025 am 11:45 AM

L'industrie cinématographique, aux côtés de tous les secteurs créatifs, du marketing numérique aux médias sociaux, se dresse à un carrefour technologique. Alors que l'intelligence artificielle commence à remodeler tous les aspects de la narration visuelle et à changer le paysage du divertissement

Comment s'inscrire pendant 5 jours ISRO AI Free Courses? - Analytique VidhyaComment s'inscrire pendant 5 jours ISRO AI Free Courses? - Analytique VidhyaApr 16, 2025 am 11:43 AM

Cours en ligne GRATUIT AI / ML d'ISRO: Une passerelle vers l'innovation technologique géospatiale L'Organisation indienne de recherche spatiale (ISRO), par le biais de son Institut indien de télédétection (IIRS), offre une opportunité fantastique aux étudiants et aux professionnels de

Algorithmes de recherche locaux dans l'IAAlgorithmes de recherche locaux dans l'IAApr 16, 2025 am 11:40 AM

Algorithmes de recherche locaux: un guide complet La planification d'un événement à grande échelle nécessite une distribution efficace de la charge de travail. Lorsque les approches traditionnelles échouent, les algorithmes de recherche locaux offrent une solution puissante. Cet article explore l'escalade et le simul

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilitéOpenai change de mise au point avec GPT-4.1, priorise le codage et la rentabilitéApr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

L'invite: Chatgpt génère de faux passeportsL'invite: Chatgpt génère de faux passeportsApr 16, 2025 am 11:35 AM

Le géant de la puce Nvidia a déclaré lundi qu'il commencerait à fabriquer des superordinateurs d'IA - des machines qui peuvent traiter de grandes quantités de données et exécuter des algorithmes complexes - entièrement aux États-Unis pour la première fois. L'annonce intervient après le président Trump Si

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP