Ensuite, combinons les exemples spécifiques donnés dans le travail de MR-Ben pour voir pourquoi la méthode étape par étape de génération des réponses finales et des évaluations associées n'est pas fiable.
En tant que modèle de « notation » évalué, GPT4-Turbo n'a pas trouvé les erreurs de calcul cachées dans la deuxième étape :
Étapes de la solution du modèle :
Étape 5 : L'option D (37) remplit toutes les conditions et constitue la bonne réponse.
Exactement de la réponse du modèle : Incorrecte
Première mauvaise étape : Étape 2
Raison de l'erreur de réponse du modèle :
À l'étape 2, le modèle a calculé de manière incorrecte que le reste de 43 divisé par 4 est 1 à la place de 3. Le modèle suppose que lorsque 43 est divisé par 4, le reste est 1, mais le reste devrait être 3. Il y a ici une erreur de calcul.
Lorsque 43 est divisé par 4, le reste est 1. Lorsque 43 est divisé par 3, le reste est 1. Lorsque 43 est divisé par 5, le reste est 3 et non 2. Par conséquent, 43 n’est pas la bonne réponse.
Réponse du modèle :
-Étape 1 : Étape vérifier le reste de 67 divisé par 4 et 3, et constater qu'il remplit la condition d'être divisé par 4 et restant 3, ce qui est une vérification correcte.
-Étape 2 : Vérifiez les restes de la division de 43 par 4, 3 et 5, et constatez que les restes de 1, 3 et 5 correspondent correctement aux attentes, sauf que le reste de 5 ne remplit pas les conditions.
-Étape 3 : Étape Calculez le reste de la division de 57 par 4 et 3, les restes sont respectivement 1 et 0. Lorsque 57 est divisé par 3, le reste ne répond pas aux critères.
-Étape 4 : Vérifiez et vérifiez les restes de la division de 37 par 4, 3 et 5. Il s'avère que tous les restes attendus sont exacts et que 37 remplit toutes les conditions de la question.
On peut voir que lorsque la question est posée et que le processus de solution est déterminé , l'évaluation La méthode du modèle de langage est transformée en permettant au modèle de « marquer » le processus de réponse, de juger s'il est correct ou incorrect et d'indiquer l'emplacement et la cause de l'erreur. La précision du processus de résolution et les emplacements d'erreurs potentiels peuvent être calculés en comparant avec les résultats de l'annotation. L'évaluation des étapes et des raisons d'erreur du modèle peut être confiée à GPT4 pour déterminer si le modèle est correct en comparant l'explication des raisons d'erreur donnée par l'annotateur et l'explication des raisons d'erreur du modèle.
De la méthode d'évaluation, la méthode proposée par MR-Ben nécessite que le modèle effectue une analyse détaillée des prémisses, des hypothèses et de la logique de chaque étape du processus de résolution de problèmes, et prévisualise le processus de raisonnement pour déterminer si le l’étape actuelle peut conduire à la bonne direction. fenye1. Cette méthode d'évaluation de « notation » est bien plus difficile que la méthode d'évaluation consistant simplement à répondre aux questions, mais elle peut efficacement éviter le problème des scores faussement élevés causés par la mémorisation des questions par le modèle. Il est difficile pour un étudiant qui ne sait que mémoriser des questions de devenir un professeur de notation qualifié.
Les modèles open source publiés par Qwen et Deepseek ne sont pas inférieurs au modèle source fermé PK, même à l'échelon mondial.
Les stratégies de tarification et les performances réelles des différents modèles fermés sont intrigantes. Les amis préoccupés par la capacité de raisonnement dans les scénarios d’utilisation peuvent trouver leur modèle préféré à utiliser en fonction du prix et des capacités.
Dans les scénarios à faibles ressources, les petits modèles présentent également de nombreux points forts. Dans l'évaluation MR-Ben, le Phi-3-mini s'est démarqué parmi les petits modèles, encore plus haut ou identique que les grands modèles avec des dizaines de milliards de paramètres, montrant. la possibilité d’affiner l’importance des données.
Les scènes MR-Ben contiennent une analyse logique complexe et une inférence étape par étape. Un contexte trop long en mode Quelques plans confondra le modèle et entraînera une baisse des performances.
MR-Ben a évalué de nombreuses expériences d'ablation génération-réflexion-régénération pour vérifier les différences entre les différentes stratégies d'incitation et a constaté qu'elle n'a aucun effet sur les modèles de bas niveau, et que l'effet sur les modèles de haut niveau tels que GPT4-Turbo n'est pas évident. Au contraire, pour les modèles de niveau intermédiaire, l'effet est légèrement amélioré car les mauvais sont toujours corrigés et les bons sont toujours corrigés.
Après avoir divisé grossièrement les sujets évalués par MR-Ben en types basés sur la connaissance, logiques, informatiques et algorithmiques, différents modèles ont leurs propres avantages et inconvénients dans différents types de raisonnement.
L'équipe Jiajiaya a mis en ligne une méthode d'évaluation en un clic sur github. Tous les amis préoccupés par un raisonnement complexe sont invités à évaluer et à soumettre leurs propres modèles. L'équipe mettra à jour le classement correspondant en temps opportun.
À propos, l'évaluation en un clic à l'aide du script officiel ne coûte qu'environ 12 millions de jetons. Le processus est très fluide, alors essayez-le !
Référence
Formation des vérificateurs pour résoudre les problèmes de mots mathématiques (https://arxiv.org/abs/2110.14168)
Mesure de la compréhension massive du langage multitâche (https://arxiv.org/abs/2009.03300)
LogiQA : un défi Ensemble de données pour la compréhension en lecture automatique avec raisonnement logique(https://arxiv.org/abs/2007.08124)
MHPP : Explorer les capacités et les limites des modèles de langage au-delà de la génération de code de base(https://arxiv.org/abs/2405.11430)
Étincelles de l'intelligence générale artificielle : premières expériences avec GPT-4(https://arxiv.org/abs/2303.12712)
Rapport technique Qwen(https://arxiv.org/abs/2309.16609)
DeepSeek-V2 : un puissant, Modèle linguistique mixte d'experts économique et efficace(https://arxiv.org/abs/2405.04434)
Les manuels sont tout ce dont vous avez besoin(https://arxiv.org/abs/2306.11644)
Les grands modèles linguistiques ne peuvent pas s'auto- Raisonnement correct pour l'instant(https://arxiv.org/abs/2310.01798)
위 내용은 Jia Jiaya 팀은 Cambridge Tsinghua University 등과 팀을 이루어 대형 모델에서 1초 만에 '높은 점수와 낮은 에너지'를 감지하는 새로운 평가 패러다임을 추진했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!