Maison >Périphériques technologiques >IA >Claude3 a donné une leçon à GPT4 ! L'adversaire le plus puissant d'Open AI est une bombe de fin de soirée, avec une analyse complète !

Claude3 a donné une leçon à GPT4 ! L'adversaire le plus puissant d'Open AI est une bombe de fin de soirée, avec une analyse complète !

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2024-03-05 15:46:161065parcourir

Produit par 51CTO Technology Stack (WeChat ID : blog51cto)

Tard dans la nuit, Anthropic, le plus grand rival d'OpenAI, a lancé trois nouveaux produits SOTA en une seule fois, dont : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. L'industrie s'est exclamée : Claude 3 apporte une série de nouvelles références pour l'industrie.

Parmi eux, Opus signifie mouvement épique, Sonnet signifie sonnet et Haiku signifie haïku, un court poème de trois vers.

Il est rapporté (Figure 9) que Haiku est le modèle le plus rapide et le plus rentable du marché de l'IA. Il peut lire des documents de recherche informatifs et gourmands en données (~ 10 000 jetons) sur arXiv contenant des tableaux et des graphiques en moins de trois secondes.

Figure 8, pour la grande majorité des charges de travail, Sonnet est 2 fois plus rapide que Claude 2 et Claude 2.1, et possède un niveau d'intelligence supérieur. Il excelle dans les tâches qui nécessitent des réponses rapides, telles que la récupération de connaissances ou l'automatisation des ventes. Opus a une vitesse similaire à Claude 2 et 2.1, mais a un niveau d'intelligence plus élevé.

Opus est actuellement le modèle le plus intelligent d'Anthropic, surpassant ses pairs sur les critères d'évaluation les plus courants pour les systèmes d'intelligence artificielle, notamment les connaissances expertes de premier cycle (MMLU), le raisonnement expert de niveau supérieur (GPQA), les mathématiques de base (GSM8K), etc. Il démontre une compréhension et une maîtrise proches du niveau humain sur des tâches complexes, à la pointe de l’intelligence générale.

Les trois modèles Claude 3 ci-dessus montrent tous de plus grandes capacités d'analyse et de prédiction, de création de contenu détaillé, de génération de code et de conversation dans des langues autres que l'anglais telles que l'espagnol, le japonais et le français.

De plus, la série Claude 3 possède des capacités de mémoire presque parfaites et des fenêtres de texte ultra longues, qui fourniront 200 000 fenêtres contextuelles. Et il peut accepter l'entrée de plus d'un million de jetons et sera progressivement publié en fonction des besoins des clients.

Dans l'ensemble, Claude3 présente trois fonctionnalités choquantes :

1. Benchmark des experts du domaine. Trois domaines d'expertise en finance/médecine/philosophie ont été sélectionnés comme références de test, Jim Fan, responsable de la recherche chez NVIDIA, a déclaré qu'« il est recommandé que tous les LLM suivent cela afin que les différentes applications en aval sachent ce qui se passera ».

2. Analyse du taux de rejet. Le LLM est devenu une épidémie avec des réponses trop prudentes à de nombreuses « questions innocentes ». Claude s'est engagé en faveur d'une recherche sûre sur l'IA et a fait des efforts dans ce domaine.

3. Caractéristiques visuelles sophistiquées comparables aux autres modèles phares. Fonctionne avec une variété de formats visuels, notamment des photos, des diagrammes, des graphiques et des diagrammes techniques, des PDF, des organigrammes ou des diapositives de présentation.

Comment se déroule l'évaluation proprement dite ?
Un internaute a demandé à GPT4 et Claude3 d'écrire respectivement un code d'interface de connexion. Les résultats réels des tests en cours (Figure 13) montrent que ce dernier est meilleur dans la conception de l'interface de l'application.