Maison  >  Article  >  Périphériques technologiques  >  Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? J'étais confus

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? J'étais confus

WBOY
WBOYavant
2023-05-24 09:25:051691parcourir

Xi Xiaoyao Technology Talk Original
Auteur | Vendre Mengjiang Ces derniers jours, notre communauté de comptes publics a transmis une capture d'écran intitulée SuperClue Review. iFlytek en a même fait la promotion sur son compte officiel :

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Puisque le modèle iFlytek Spark vient de sortir et que je n'y ai pas beaucoup joué, je n'ose pas tirer de conclusion quant à savoir s'il est vraiment le plus puissant fabriqué en Chine.

Mais dans cette capture d'écran, Baidu Wenxinyiyan, le modèle national le plus populaire à l'heure actuelle, ne peut même pas battre un petit modèle académique open source ChatGLM-6B. Non seulement cela est sérieusement incompatible avec la propre expérience de l'auteur, mais dans notre communauté professionnelle de technologie PNL, tout le monde a également exprimé sa confusion :

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

par curiosité, l'auteur est allé sur cette liste de superindices github, je veux voir comment cette conclusion d'évaluation est tirée : https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

Tout d'abord, l'auteur a remarqué qu'il y a quelques problèmes sous ce dépôt :

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Il semble que ce sentiment scandaleux est non seulement partagé par l'auteur, mais comme prévu, le regard du public est toujours vif. . .

L'auteur a examiné de plus près la méthode d'évaluation de cette liste :

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Bon gars, il s'avère que les soi-disant tests de grands modèles génératifs consistent uniquement à demander au modèle de poser des questions à choix multiples. . .

Évidemment, cette méthode d'évaluation à choix multiples s'adresse au modèle d'IA discriminant à l'époque BERT, à cette époque, le modèle d'IA n'avait généralement pas la capacité de générer, mais avait seulement la capacité de discriminer (par exemple). , il peut déterminer à quelle catégorie appartient un morceau de texte. Parmi les options (quelle est la bonne réponse à une question, juger si la sémantique de deux textes est cohérente, etc.).

L'évaluation des modèles génératifs est assez différente de l'évaluation des modèles discriminatifs.

Par exemple, pour une tâche de génération particulière telle que la traduction automatique, des indicateurs d'évaluation tels que BLEU sont généralement utilisés pour détecter la « couverture de vocabulaire et de phrases » entre les réponses générées par le modèle et les réponses de référence. Cependant, il existe très peu de tâches génératives avec des réponses de référence telles que la traduction automatique, et la grande majorité des évaluations génératives nécessitent une évaluation manuelle.

Par exemple, les tâches de génération telles que la génération de conversations de chat, le transfert de style de texte, la génération de chapitres, la génération de titres, le résumé de texte, etc. nécessitent que chaque modèle soit évalué pour générer librement des réponses, puis comparer manuellement la qualité des réponses générées par ces différents modèles, ou déterminer manuellement si les exigences de la tâche sont satisfaites.

Le cycle actuel de concours d'IA est une compétition pour les capacités de génération de modèles, et non une compétition pour les capacités de discrimination de modèles. La chose la plus puissante à évaluer est la réputation réelle des utilisateurs, et non plus les froides listes académiques. De plus, c'est une liste qui ne teste pas du tout les capacités de génération de modèles.

Retour sur ces dernières années -

En 2019, lorsque OpenAI a publié GPT-2, nous empilions des astuces pour rafraîchir le classement

En 2020, lorsque OpenAI a publié GPT-3, nous empilions des astuces pour rafraîchir le classement ;

En 2021-2022, lorsque le réglage des instructions et les travaux RLHF tels que FLAN, T0, InstructGPT, etc. ont éclaté, nous avons encore de nombreuses équipes qui insistent pour empiler des astuces pour rafraîchir le classement...

J'espère que dans cette vague de course aux armements modèles génératifs, nous ne commettions plus les mêmes erreurs.

Alors, comment tester les modèles d’IA générative ?

Désolé, j'ai déjà dit que si vous voulez réaliser des tests impartiaux, c'est très, très difficile, encore plus difficile que de développer vous-même un modèle génératif. Quelles sont les difficultés ? Quelques questions précises :

  • Comment diviser les dimensions d'évaluation ? Par la compréhension, la mémoire, le raisonnement, l'expression ? Par domaine d'expertise ? Ou combiner des tâches d'évaluation générative PNL traditionnelles ?
  • Comment les évaluateurs sont-ils formés ? Pour les questions de test avec des seuils professionnels extrêmement élevés telles que le codage, le débogage, la dérivation mathématique et les questions et réponses financières, juridiques et médicales, comment recrutez-vous les personnes à tester ?
  • Comment définir les critères d'évaluation pour les questions de test hautement subjectives (comme générer une rédaction à la manière de Xiaohongshu) ?
  • Le fait de poser quelques questions générales d'écriture peut-il représenter la capacité de génération/d'écriture de texte d'un modèle ?
  • Examinez les sous-capacités de génération de texte du modèle. La génération de chapitres, la génération de questions et réponses, la traduction, le résumé et le transfert de style sont-ils tous couverts ? Les proportions de chaque tâche sont-elles égales ? Les critères de jugement sont-ils clairs ? Statistiquement significatif ?
  • Dans la sous-tâche de génération de questions et réponses ci-dessus, toutes les catégories verticales telles que la science, les soins médicaux, l'automobile, la mère et le bébé, la finance, l'ingénierie, la politique, l'armée, le divertissement, etc. sont-elles couvertes ? La proportion est-elle égale ?
  • Comment évaluer les compétences conversationnelles ? Comment concevoir les tâches d’inspection en fonction de la cohérence, de la diversité, de la profondeur des sujets et de la personnification du dialogue ?
  • Pour un même test d'aptitude, les questions simples, les questions de difficulté moyenne et les questions complexes à long terme sont-elles couvertes ? Comment définir ? Quelles proportions représentent-ils ?

Ce ne sont là que quelques problèmes fondamentaux à résoudre. Dans le processus de conception réelle du benchmark, nous devons faire face à un grand nombre de problèmes beaucoup plus difficiles que les problèmes ci-dessus.

Par conséquent, en tant que praticien de l'IA, l'auteur appelle chacun à considérer rationnellement les classements des différents modèles d'IA. Il n’existe même pas de test de référence impartial, alors à quoi sert ce classement ?

Comme je l'ai déjà dit, la qualité d'un modèle génératif dépend des utilisateurs réels.

Peu importe le classement d'un modèle sur une liste, s'il ne peut pas résoudre le problème qui vous tient à cœur, ce ne sera pour vous qu'un modèle moyen. En d’autres termes, si un modèle classé en bas de l’échelle est très fort dans le scénario qui vous préoccupe, alors c’est un modèle au trésor pour vous.

Ici, l'auteur divulgue un ensemble de tests de cas difficiles (cas difficile) enrichi et rédigé par notre équipe. Cet ensemble de tests se concentre sur la capacité du modèle à résoudre des problèmes/instructions difficiles.

Cet ensemble de tests difficiles se concentre sur la compréhension du langage du modèle, la compréhension et le suivi d'instructions complexes, la génération de texte, la génération de contenu complexe, les multiples cycles de dialogue, la détection des contradictions, le raisonnement de bon sens, le raisonnement mathématique, le raisonnement contrefactuel, l'identification des informations dangereuses et les aspects juridiques. éthique. Sensibilisation, connaissance de la littérature chinoise, capacité multilingue et capacité de codage, etc.

Je souligne encore une fois qu'il s'agit d'un ensemble de cas élaboré par l'équipe de l'auteur pour tester la capacité du modèle génératif à résoudre des exemples difficiles. Les résultats de l'évaluation ne peuvent que représenter "quel modèle convient le mieux à l'équipe de l'auteur", loin de là. une conclusion de test impartiale. Si vous souhaitez une conclusion de test impartiale, veuillez d'abord répondre aux questions d'évaluation mentionnées ci-dessus, puis définir une référence de test faisant autorité.

Les amis qui souhaitent évaluer et vérifier par eux-mêmes peuvent répondre au mot de passe [AI Evaluation] en arrière-plan de ce compte public "Xi Xiaoyao Technology" pour télécharger le fichier de test

Ce qui suit est la nouvelle la plus controversée du liste de superindices Résultats de l'évaluation de trois modèles : Feixinghuo, Wenxinyiyan et ChatGPT :

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Baidu Wenxinyiyan se classe dernier parmi les modèles nationaux ? Jétais confus

Taux de résolution des cas difficiles :

  • ChatGPT (GPT-3.5-turbo) : 11/24=45,83 %
  • Wen Xinyiyan (version 2023.5.10) : 13/24=54,16 %
  • iFlytek Spark (version 2023.5.10) : 7/24=29,16 %

C'est pour prouver qu'iFlytek Spark n'est pas aussi bon que Wen Un mot de ton cœur ? Si vous lisez attentivement l’article précédent, vous comprendrez ce que l’auteur veut dire.

En effet, bien que le modèle Spark ne soit pas aussi bon que Wen Xinyiyan dans ce cas difficile défini au sein de notre équipe, cela ne signifie pas que l'un est définitivement meilleur que l'autre au total. Cela signifie seulement que dans le cas difficile, test défini au sein de notre équipe. notre équipe, Wenxinyiyan, a obtenu les meilleurs résultats, résolvant même deux cas plus difficiles que ChatGPT.

Pour des questions simples, il n'y a en réalité pas beaucoup de différence entre le modèle domestique et ChatGPT. Pour les problèmes difficiles, chaque modèle possède ses propres atouts. À en juger par l'expérience complète de l'équipe de l'auteur, Wen Xinyiyan est suffisant pour battre les modèles open source tels que ChatGLM-6B pour les tests académiques. Certaines capacités sont inférieures à ChatGPT et certaines capacités dépassent ChatGPT.

Il en va de même pour les modèles nationaux produits par d'autres grands fabricants tels que Alibaba Tongyi Qianwen et iFlytek Spark.

C'est toujours la même phrase, maintenant il n'y a même plus de test de référence impartial, alors à quoi sert le classement de votre modèle ?

Au lieu de débattre de divers classements biaisés, il est préférable de créer un ensemble de tests qui vous tient à cœur, comme l'a fait mon équipe.

Un modèle qui peut résoudre votre problème est un bon modèle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer