Maison >Périphériques technologiques >IA >Examen de première main de Claude 3.5 : est-il vraiment meilleur que GPT-4o pour jouer des tours, consulter un médecin, jouer des tours et résoudre des problèmes de mathématiques ?

Examen de première main de Claude 3.5 : est-il vraiment meilleur que GPT-4o pour jouer des tours, consulter un médecin, jouer des tours et résoudre des problèmes de mathématiques ?

王林
王林original
2024-06-22 07:46:191087parcourir
Rapport sur la puissance de la machine
Éditeur : Yang Wen
Jouer des tours, voir des médecins, jouer des tours et résoudre des problèmes de mathématiques est-ce que la capacité 3.5 de "New King" Claude est vraiment ça. mystérieux?

Ça arrive, ça arrive, ça arrive avec le Claude 3.5 Sonnet !

Après trois mois de dormance, hier soir, Anthropic, le « grand rival » d'OpenAI, a lancé un modèle de nouvelle génération -

Claude 3.5 Sonnet !

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Qu'est-ce qui est unique dans ce grand modèle ?

Tout d'abord, il permet de mieux saisir les nuances, l'humour et les instructions complexes, et le ton d'écriture est plus naturel et convivial.

C'est également le modèle visuel le plus puissant d'Anthropic, performant dans des tâches telles que l'interprétation de tableaux, de graphiques ou la transcription de texte à partir d'images imparfaites.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

De plus, il fonctionne exceptionnellement bien sur plusieurs critères d'évaluation, notamment le raisonnement, la compréhension écrite, les mathématiques, les sciences et le codage.

En bref, selon l'introduction officielle, Claude 3.5 Sonnet est le modèle le plus intelligent à ce jour, battant le GPT-4o à bien des égards.

En parlant de ça, ne soyons pas polis et laissons Claude 3.5 Sonnet et GPT-4o s'affronter directement pour voir lequel est le meilleur.


Premier jeu : Exercice Mind Eyes

Dans la vie quotidienne, vous rencontrerez toujours des scènes embarrassantes.

Par exemple, lors d'un dîner, vous aidez le chef à servir le riz. Après que le chef l'ait pris, il dit : « Que diriez-vous de nourrir les cochons après avoir servi autant ? Comment une personne dotée d'une grande intelligence émotionnelle réagirait-elle à cela ? situation?

Nous rejetons ce problème sur ces deux grands modèles.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Ils savent vous flatter.

Claude 3.5 a donné 5 exemples d'un seul coup, mais la deuxième phrase : "Ma vue n'est pas bonne, donc je te considère comme le pilier de notre unité."

GPT-4o comprend mieux "les voies du monde". "Voyant que vous maintenez une si belle silhouette, je dois vous demander des conseils pour perdre du poids."

Il convient de mentionner que Claude 3.5 Sonnet a également lancé une nouvelle fonction : la fonction de réédition des mots rapides.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Les utilisateurs peuvent directement éditer et modifier les mots d'invite d'origine sans avoir à les copier et les coller encore et encore.


Deuxième tour : Générer des recettes basées sur des plats

Nous avons téléchargé une photo des "Œufs au plat aux tomates" et avons laissé les deux grands modèles présenter le processus de production.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Ils ont beaucoup d'expérience avec ce plat chinois classique, des ingrédients aux étapes, et le plus intéressant est qu'il a les deux d'entre eux comprennent l'essence de la cuisine chinoise, « un peu », et tous deux mettent l'accent sur l'ajout d'un peu de sucre pour équilibrer l'acidité.

En matière de cuisine, les deux grands modèles sont comparables.


Le troisième jeu : Faire des problèmes de mathématiques

Dans le tableau d'évaluation officiel, le score en mathématiques de GPT-4o est légèrement supérieur à Claude 3,5 Sonnet. Parmi eux, GPT-4o représente 76,6 % et Claude 3,5 Sonnet représente 71,1 %.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Nous avons extrait deux questions de l'épreuve I du nouvel examen d'entrée à l'université 2024, l'une est une question à choix multiples et l'autre est une question à réponse, et elles sont « nourries » à ces deux grands modèles sous la forme de des photos.

La première question est une question de notation et la bonne réponse est A.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4O:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Te deux grands modèles sont "en phase", non seulement en donnant la bonne réponse, mais aussi pour donner des détails étapes de résolution de problèmes d’information.

Nous leur avons posé la première question et leur avons demandé de donner le processus de solution.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

La bonne réponse est : B=3/π.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

En fait, cette question est la question la plus fondamentale, mais les deux grands modèles sont « aussi féroces qu'un tigre en une seule opération » ", et finalement j'ai eu la mauvaise réponse.

Ce qui est encore plus drôle, c'est que cette mauvaise réponse n'est pas venue de nulle part, mais après une série de raisonnements, et même les erreurs étaient les mêmes.

En termes de capacité mathématique, ces deux grands modèles sont à égalité.


Le quatrième jeu : jouer des mèmes chauds sur Internet

Cette année, le domaine de la vidéo IA s'est épanoui partout, ne se contentant pas de faire entrer de nouveaux "joueurs" - Keling, Luma, Jimeng, etc. , l'ancien AI La vidéo "porte le manche" Runway, c'est aussi "le retour du roi".

En conséquence, les internautes ont créé ce mème pour se moquer de l'état actuel des principales applications vidéo d'IA.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Nous avons téléchargé ce mème sur deux grands modèles respectivement et avons entré le mot d'invite « Que signifie cette image ? » pour tester leurs capacités d'interprétation d'image.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet a une description détaillée en termes de personnages à l'écran, de scènes et d'ambiance, mais ce n'est pas le cas semble être Comprendre, je ne connais pas la connotation de ce mème, et je ne connais pas ces applications vidéo d'IA. J'ai juste vaguement déclaré que « il s'agit d'un commentaire sur la structure du pouvoir dans les communautés en ligne, les systèmes d'intelligence artificielle ou virtuels. mondes. »

GPT-4o Jetez un œil Comprenez simplement le sens : « Cette image peut symboliser la supériorité ou le leadership reconnu de Runway dans le domaine de l'intelligence artificielle et des outils créatifs. Par rapport aux autres applications mentionnées, Runway est très appréciée. » Évidemment, ce tour-ci, GPT-4o gagne.


Le cinquième tour : Comprendre les peintures de renommée mondiale

Nous avons sorti le tableau "Spring Light" peint par Pierre-Auguste Coote en 1873 et leur avons demandé d'identifier le tableau et de l'apprécier.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Ces deux grands modèles peuvent être qualifiés d'"experts" dans le monde de l'art. Ils ont tous deux reconnu le tableau, exprimé correctement les informations de base et l'ont apprécié sous des angles différents.

Ils ont tous mentionné la valeur marchande, cependant, Claude 3.5 Sonnet a refusé de commenter, rappelant seulement que "l'évaluation de l'art nécessite une évaluation par un expert, prenant en compte de multiples facteurs, et que les prix peuvent fluctuer considérablement dans le temps." rapporter des millions de dollars. Est-ce trop sous-estimé pour ce tableau classique ?

Dans ce jeu, les deux grands modèles sont à égalité.


Sixième jeu : L'IA voit des médecins

Récemment, les internautes ont joué avec l'utilisation de grands modèles d'IA pour consulter des médecins. Nous avons trouvé une radiographie des dents d'un enfant de 6 ans et avons demandé aux modèles d'utiliser les dents pour déduire l'âge et les problèmes présents.

Claude 3.5 Sonnet :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o :

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?Claude 3.5 Sonnet En nous basant sur le développement des dents de lait et des dents permanentes, nous avons conclu qu'il s'agit d'un enfant d'environ 6- 7 ans Les dents de l'enfant, les dents inférieures sont quelque peu encombrées, les dents permanentes semblent incluses et il peut y avoir des caries dans les zones les plus sombres des dents.

GPT-4o estime qu'il s'agit des dents d'un enfant âgé de 7 à 9 ans. Les principaux problèmes dentaires comprennent l'encombrement des dents permanentes et une éventuelle impaction.

En même temps, ils ont tous mentionné que cela nécessite un examen dentaire professionnel.

Comparé entre les deux, le jugement d'âge de Claude 3.5 Sonnet est plus précis.

Dans ce tour, Claude 3.5 est légèrement meilleur.

De plus, de nombreux internautes travaillent également en ligne et proposent de nombreuses façons intéressantes de jouer.

Par exemple, le fondateur d'EverArt, Pietro Schirano, a cloné le jeu Mario en utilisant des formes géométriques avec l'aide de Claude 3.5 Sonnet, et l'ensemble du processus n'a duré que 3 minutes.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?Il a dit : "Le plus fou, c'est que cela anime également les personnages et que les formes ont l'air si originales."

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?Lien vidéo :
https://www.php. a412963e013751a90654aa344bc26efe

Chers lecteurs, pensez-vous que Claude 3.5 Sonnet a complété la "défaite" contre GPT-4o cette fois-ci ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn