Maison  >  Article  >  Périphériques technologiques  >  Modèle d'IA générative big PK——GPT-4, Claude 2.1 et Claude 3.0 Opus

Modèle d'IA générative big PK——GPT-4, Claude 2.1 et Claude 3.0 Opus

王林
王林original
2024-06-07 18:32:371049parcourir

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Si vous souhaitez en savoir plus sur AIGC, veuillez visiter :

51CTO AI semble être publiée chaque jour, et beaucoup d'entre elles se concentrent sur la phase de récupération du framework. Dans la question. Cependant, l’aspect génératif – la manière dont le modèle synthétise et exprime les informations récupérées – peut être tout aussi important en pratique. De nombreux cas d’application pratiques prouvent que le système doit non seulement renvoyer des données du contexte, mais également transformer ces informations en une réponse plus complexe.

Pour cela, nous avons mené plusieurs expérimentations pour évaluer et comparer les capacités de génération de trois modèles : GPT-4, Claude 2.1 et Claude 3 Opus. Cet article détaillera nos méthodes de recherche, les résultats et les nuances de ces modèles que nous avons rencontrés en cours de route, et expliquera pourquoi ils sont importants pour ceux qui construisent avec l'IA générative.

Si les lecteurs intéressés souhaitent reproduire les résultats de l'expérience ci-dessus, tout ce qui est nécessaire à l'expérience peut être trouvé dans le référentiel GitHub (https://github.com/Arize-ai/LLMTest_NeedleInAHaystack).

Notes supplémentaires

Bien que les premiers résultats suggèrent que Claude a surpassé GPT-4, les tests ultérieurs ont montré que, avec l'avènement des techniques d'ingénierie stratégique rapide, GPT-4 a surpassé un plus large éventail de performances d'évaluation. En bref, il existe encore de nombreux problèmes dans le comportement du modèle et dans l'ingénierie rapide inhérents au système RAG.

De manière significative (plus de deux fois), les performances de GPT-4 sont améliorées en ajoutant simplement « Veuillez vous expliquer, puis répondez à la question » au modèle d'invite. Il est clair que lorsque LLM donne la réponse, cela semble aider à développer davantage l'idée. Grâce à l'interprétation, il est possible pour le modèle de réexécuter la bonne réponse dans l'espace d'intégration/d'attention.

    IMPORTANCE DE LA PHASE RAG ET DE LA GÉNÉRATION
Figure 1 : Schéma créé par l'auteur

Alors que dans un système de génération augmentée par récupération, la partie récupération est chargée d'identifier et de récupérer les informations les plus pertinentes, c'est la génération phase qui obtient ces données brutes et les transforme en réponses cohérentes, significatives et contextuelles. La tâche de l'étape de génération est de synthétiser les informations récupérées, de combler les lacunes et de les présenter d'une manière facile à comprendre et pertinente pour la requête de l'utilisateur. La tâche de l'étape de génération est de synthétiser les informations récupérées, de combler les lacunes et de les présenter d'une manière facile à comprendre et pertinente pour la requête de l'utilisateur. Au cours de la phase de génération, des informations vides sont remplies afin d'obtenir une interprétation complète et compréhensible des informations pertinentes. Dans le même temps, les utilisateurs peuvent interroger les informations présentées de manière pertinente selon leurs besoins. Grâce au traitement au cours de l'étape de génération, en remplissant les informations vides, le résultat final généré est rendu plus complet et plus facile à comprendre. Cela permet de comprendre et d’interroger des informations pertinentes, aidant ainsi les utilisateurs à explorer et à rechercher plus en profondeur.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 OpusDans de nombreuses applications du monde réel, la valeur des systèmes RAG réside non seulement dans leur capacité à localiser des faits ou des informations spécifiques, mais également dans leur capacité à intégrer et contextualiser les informations dans un cadre plus large. La phase de génération permet aux systèmes RAG d'aller au-delà de la simple récupération de faits et de fournir des réponses véritablement intelligentes et adaptatives.

Test n°1 : Mappage de dates

Le test initial que nous avons effectué consistait à générer une chaîne de date à partir de deux nombres récupérés aléatoirement : l'un représentant le mois et l'autre représentant le jour. La tâche du modèle est de :

Récupérer le nombre aléatoire n°1

Isoler le dernier chiffre et l'incrémenter de 1

Générer un mois pour notre chaîne de date en fonction du résultat
  • Récupérer le nombre aléatoire n°2
  • Générer date du nombre aléatoire 2 Date de la chaîne
  • Par exemple, les nombres aléatoires 4827143 et 17 représentent le 17 avril.
  • Les figures sont placées dans un contexte de différentes longueurs et différentes profondeurs. Le modèle a d’abord eu du mal à accomplir cette tâche.

Figure 2 : Résultats des tests initiaux

Bien que les deux modèles aient donné de mauvais résultats, Claude 2.1 a largement surpassé GPT-4 lors de nos tests initiaux, avec un taux de réussite presque quatre fois supérieur. C'est ici que la nature verbeuse du modèle de Claude – fournissant des réponses détaillées et explicatives – semble lui donner un net avantage, ce qui se traduit par des résultats plus précis par rapport aux réponses laconiques originales de GPT-4.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 OpusEncouragés par ces résultats expérimentaux inattendus, nous avons introduit une nouvelle variable dans l'expérience. Nous avons demandé à GPT-4 de « vous expliquer, puis de répondre à la question », une invite qui encourageait des réponses plus détaillées similaires à celles naturellement produites par le modèle Claude. L’impact de ce petit ajustement est donc considérable.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Figure 3 : Test initial des résultats d'invite ciblés

Les performances du modèle GPT-4 se sont considérablement améliorées, obtenant des résultats parfaits lors des tests ultérieurs. Les résultats du modèle Claude se sont également améliorés.

Cette expérience met non seulement en évidence les différences dans la manière dont les modèles de langage gèrent les tâches de génération, mais démontre également l'impact potentiel de l'ingénierie des indices sur leurs performances. La force de Claude semble être la verbosité, qui s'avère être une stratégie reproductible pour GPT-4, suggérant que la façon dont un modèle gère et présente l'inférence peut affecter de manière significative sa précision dans les tâches de génération. Dans l'ensemble, dans toutes nos expériences, la phrase apparemment petite « expliquez-vous » a joué un rôle dans l'amélioration des performances du modèle.

Autres tests et résultats

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Figure 4 : Quatre tests supplémentaires pour évaluer la génération

Nous avons effectué quatre tests supplémentaires pour évaluer le modèle traditionnel de synthèse et de conversion des informations récupérées dans différents formats. Capacités :

  • Concaténation de chaînes : Combinez des fragments de texte en chaînes cohérentes pour tester les compétences de base en manipulation de texte de votre modèle.
  • Format monétaire : formatez les nombres en devises, arrondissez et calculez les modifications en pourcentage pour évaluer la précision du modèle et sa capacité à gérer des données numériques.
  • Mappage des dates : la conversion de représentations numériques en noms de mois et de jours nécessite une récupération hybride et une compréhension du contexte.
  • Opérations modulaires : effectuez des opérations sur des nombres complexes pour tester les capacités de génération mathématique du modèle.

Comme prévu, chaque modèle a montré de solides performances en matière de concaténation de chaînes, ce qui réitère également la compréhension précédente selon laquelle la manipulation de texte est une force fondamentale des modèles de langage.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Figure 5 : Résultats du test de formatage des devises

En ce qui concerne le test de formatage des devises, Claude 3 et GPT-4 ont fonctionné presque parfaitement. Les performances de Claude 2.1 sont généralement médiocres. La précision ne varie pas beaucoup selon la longueur des marques, mais elle est généralement inférieure à mesure que le pointeur se rapproche du début de la fenêtre contextuelle.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Figure 6 : Résultats des tests officiels du site Web Haystack

Malgré l'obtention d'excellents résultats en une génération de tests, la précision de Claude 3 a chuté dans une expérience de récupération uniquement. En théorie, la simple récupération de chiffres devrait également être plus facile que leur manipulation, ce qui rend la baisse des performances surprenante et constitue un domaine que nous prévoyons de tester davantage. Au contraire, cette baisse contre-intuitive ne fait que confirmer davantage l'idée selon laquelle la récupération et la génération doivent être testées lors du développement avec RAG.

Conclusion

En testant diverses tâches de génération, nous avons observé que si les deux modèles, Claude et GPT-4, sont bons pour les tâches triviales telles que la manipulation de chaînes, dans des scénarios plus complexes, leurs forces et leurs faiblesses deviennent évidentes (https:/ /arize.com/blog-course/research-techniques-for-better-retrieved-Generation-rag/). LLM n'est toujours pas très bon en mathématiques ! Un autre résultat clé est que l'introduction d'indices « auto-explicatifs » améliore considérablement les performances de GPT-4, soulignant l'importance de savoir comment donner des indices au modèle et comment clarifier son raisonnement pour obtenir des indices précis. résultats.

Ces résultats ont des implications plus larges pour l’évaluation du LLM. Lorsque l'on compare des modèles tels que le Claude détaillé et le GPT-4 initialement moins détaillé, il devient clair que les critères d'évaluation RAG (https://arize.com/blog-course/rag-evaluation/) doivent aller au-delà de l'accent précédent mis uniquement sur étant le sexe correct, ceci. La verbosité des réponses du modèle introduit une variable qui peut affecter de manière significative leur performance perçue. Cette nuance peut suggérer que les futures évaluations du modèle devraient considérer la longueur moyenne des réponses comme un facteur important pour mieux comprendre les capacités du modèle et garantir une comparaison plus équitable.

Présentation du traducteur

Zhu Xianzhong, rédacteur en chef de la communauté 51CTO, blogueur expert 51CTO, conférencier, professeur d'informatique dans une université de Weifang et vétéran de l'industrie de la programmation indépendante.

Titre original : Conseils pour obtenir la bonne partie de la génération lors de la récupération Augmented Generation, auteur : Aparna Dhinakaran

Lien :

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -génération-7deaa26f28dc.

Pour en savoir plus sur l'AIGC, veuillez visiter :

Communauté 51CTO AI.x

https://www.51cto.com/aigc/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn