Maison  >  Article  >  Périphériques technologiques  >  Grand modèle + recherche arborescente de Monte Carlo, un seul mouvement rend le niveau de l'Olympiade mathématique LLaMa-3 8B proche de GPT-4

Grand modèle + recherche arborescente de Monte Carlo, un seul mouvement rend le niveau de l'Olympiade mathématique LLaMa-3 8B proche de GPT-4

PHPz
PHPzoriginal
2024-06-18 16:46:121022parcourir

Grâce à l'innovation au niveau des algorithmes, la capacité des grands modèles de langage à résoudre des problèmes mathématiques continuera de s'améliorer à l'avenir.

Ces derniers jours, la nouvelle selon laquelle Jiang Ping, 17 ans, élève du secondaire technique, s'est classée 12e au monde lors des qualifications du Concours mondial de mathématiques Alibaba 2024, a inondé l'écran. Dans le même temps, les résultats de l'AI Challenge montrent que parmi les 563 équipes IA participantes, le score le plus élevé était de 34 points et le score moyen était de 18 points, rattrapant ainsi le niveau moyen des joueurs humains.

Le principal défaut de l'IA participant aux concours de mathématiques est sa faible capacité de raisonnement logique, et il est difficile d'obtenir tous les points pour les questions de preuve. Il s’agit également d’un défi majeur auquel sont confrontés les grands modèles de langage (LLM) actuels tels que GPT-4 et LLaMA dans les tâches qui nécessitent une stratégie et un raisonnement logique.

L'un des obstacles importants est l'exactitude et la crédibilité du résultat, en particulier dans les contextes mathématiques où l'exactitude doit être garantie, le LLM produit souvent des hallucinations lors du raisonnement. Le résultat peut paraître raisonnable en apparence, mais il est en réalité non pertinent ou inexact sur le plan factuel, conduisant finalement à un processus de raisonnement déraisonnable.

Naturellement, les techniques de réécriture telles que l'auto-raffinement peuvent aider à remédier à ce biais, mais peuvent toujours conduire à des résultats trompeurs ou erronés pour des problèmes mathématiques complexes du monde réel.

Par conséquent, afin de relever ces défis, des chercheurs de l'Université de Fudan et du Shanghai AI Lab ont proposé MCT Self-Refine (MCTSr), qui combine LLM avec l'algorithme Monte Carlo Tree Search (MCTS) et se concentre sur l'amélioration des performances de LLM dans des environnements complexes. tâches. Performance sur des tâches de raisonnement mathématique (telles que les questions de l’Olympiade mathématique).

MCTS est un outil de prise de décision largement utilisé dans les scénarios d'intelligence artificielle qui nécessitent une planification stratégique, généralement dans les jeux et les environnements de résolution de problèmes complexes. En combinant les capacités d'exploration du système de MCTS avec les capacités d'auto-raffinement et d'auto-évaluation de LLM, cet article vise à créer un cadre plus puissant pour traiter les tâches de raisonnement complexes difficiles à résoudre avec le LLM actuel.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

  • Adresse papier : https://arxiv.org/pdf/2406.07394

  • Adresse du projet : https://github.com/trotsky1997/MathBlackBox

Cependant, lors de la combinaison de MCTS avec LLM Il existe quelques défis techniques pendant le processus d’intégration. Les stratégies MCTS traditionnelles peuvent ne pas s'adapter à la nature stochastique et générative des résultats du LLM, qui impliquent généralement un espace infini et continu d'actions potentielles. Cette incohérence nécessite des méthodes personnalisées de calcul des attentes et de rétropropagation dans le cadre MCTS pour mieux s'adapter aux propriétés uniques de LLM.

De plus, les chercheurs ont introduit une stratégie d'élagage dynamique qui intègre une formule améliorée de limite de confiance supérieure (UCB) pour optimiser l'équilibre exploration-exploitation requis pour une prise de décision efficace dans les tâches à haut risque.

On peut dire que cette recherche fait progresser l'application du LLM dans des défis de raisonnement complexes et jette les bases de l'intégration future des innovations technologiques liées à l'IA, permettant ainsi aux applications basées sur le LLM d'avoir une prise de décision, une précision et une fiabilité de raisonnement plus puissantes. sexe.

Présentation de la méthode

Le diagramme d'architecture MCTSr est présenté dans la figure 1 :

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4Le flux de travail MCTSr comprend :

  • Initialisation : utiliser des réponses générées par le modèle et des réponses factices pour établir des nœuds racines afin de minimiser le dépassement du modèle. Tendance d'ajustement ;

  • Sélection : cet algorithme utilise la fonction de valeur Q pour trier toutes les réponses incomplètement développées et utilise une stratégie gourmande pour sélectionner le nœud avec la valeur la plus élevée pour une exploration et une optimisation plus approfondies 

  • Auto-raffinement : choisissez la bonne réponse a ; Utilisez le framework Self-Refine pour l’optimisation. Initialement, le modèle génère un feedback m qui guide le processus d'optimisation pour produire une réponse améliorée a ′ ;

  • Auto-évaluation : la réponse affinée est notée pour échantillonner une valeur de récompense, et sa valeur Q est calculée. Cela implique des commentaires et des contraintes d'auto-récompense du modèle, telles que des normes de notation strictes et la suppression des scores complets pour garantir la fiabilité et l'équité de la notation.

  • Rétropropagation : rétropropagation de la valeur de la réponse affinée vers son nœud parent et d'autres nœuds associés ; mettre à jour les informations sur la valeur de l'arbre. Si la valeur Q d'un nœud enfant change, mettez à jour la valeur Q du nœud parent ;

  • Mise à jour UCT : une fois la mise à jour de la valeur Q de tous les nœuds terminée, déterminez un ensemble de nœuds candidats C pour une expansion ou une sélection ultérieure, et puis utilisez La formule de mise à jour UCT met à jour les valeurs UCT de tous les nœuds en préparation pour l'étape de sélection suivante.

Répétez les étapes ci-dessus jusqu'à ce que la condition de terminaison T soit remplie.

Auto-raffinement

Dans la phase d'auto-raffinement, le modèle optimise la réponse a à la question P à travers plusieurs séries d'invites de raffinement du dialogue. Premièrement, le modèle génère un commentaire réflexif ou critique m sur la réponse a. Par la suite, sous la direction de m, le modèle modifie la réponse a pour produire une version améliorée a'. Ce raffinement itératif améliore la qualité de la réponse du modèle.

Auto-évaluation

Dans le processus d'affinement de la réponse du problème mathématique P, la valeur Q d'une réponse a est définie comme la qualité attendue du raffinement ultérieur de a en une meilleure réponse. Cette définition est basée sur la propriété markovienne de transition de a à sa forme réécrite, c'est-à-dire que l'état suivant (c'est-à-dire la réponse réécrite) ne dépend que de l'état actuel (c'est-à-dire la réponse actuelle a) et n'a rien à voir avec la état antérieur.

De plus, les chercheurs ont également conçu trois contraintes : les contraintes d'invite, la suppression du score complet et l'échantillonnage répété. Après échantillonnage, calculez la valeur Q de a.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Rétropropagation

Une fois que les valeurs de récompense de tous les nœuds feuilles ont été échantillonnées et les valeurs Q mises à jour, ces modifications sont ensuite propagées à leurs nœuds parents et nœuds ancêtres. Au cours de ce processus de mise à jour, si la valeur de la fonction Q de n'importe quel élément de l'ensemble Enfants (a) du nœud a change, la valeur de la fonction Q du nœud a sera également mise à jour. Une telle propagation garantit que la valeur Q d'un nœud reflète le dernier état et l'évaluation de tous ses enfants possibles.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Mettre à jour l'UCT et la sélection

Après avoir mis à jour les valeurs Q de tous les nœuds de l'arborescence, il entrera dans le prochain tour de l'étape de sélection. Ce processus comprend les étapes suivantes :

  • Sélection du nœud candidat : lors de la sélection d'un nœud, le chercheur n'a pas besoin de partir du nœud racine, mais parcourt les nœuds de l'arborescence dans l'ordre hiérarchique.

  • Mise à jour UCT : tirée d'AlphaGo, cette étude utilise les méthodes UCT et UCB-1 pour équilibrer l'exploration et l'utilisation des nœuds ; pour le nœud a dans l'ensemble candidat C, sa valeur UCT_a est :

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Fonction de résiliation

Résiliation anticipée : la résiliation se produit lorsque l'amélioration des résultats de recherche commence à diminuer ou lorsque des recherches successives produisent des résultats en double.

Contraintes de recherche : la recherche est terminée une fois que le nombre d'expansions atteint une limite prédéterminée ou qu'un ou plusieurs nœuds de l'arborescence satisfont à la contrainte de profondeur maximale.

Résultats expérimentaux

Afin d'évaluer l'efficacité de l'algorithme MCTSr dans la résolution de problèmes mathématiques, les chercheurs ont utilisé LLaMA3-8B comme modèle de base et ont utilisé MCTSr pour l'amélioration. Ils ont comparé LLaMA3-8B avec GPT-4, Claude 3 et Gemini 1.5-Pro ​​​​dans plusieurs configurations, notamment Zero-Shot CoT, Self-Refine, MCTSr à 4 déploiements et MCTSr à 8 déploiements.

Les chercheurs ont évalué la méthode ci-dessus sur les ensembles de tests GSM8K et GSM-hard (qui contiennent respectivement des problèmes mathématiques typiques et difficiles), et les résultats sont présentés dans le tableau 1 ci-dessous.

On peut constater qu'il existe une corrélation directe entre le nombre de déploiements et le taux de réussite du MCTSr, et elle augmente considérablement à mesure que le nombre d'itérations augmente, en particulier dans le GSM8K le moins complexe. Cependant, pour l'ensemble de tests GSM-Hard plus complexe, la limite de performances sera atteinte même si le nombre de déploiements est plus élevé, ce qui indique que la stratégie actuelle a des limites dans la résolution de problèmes complexes.

Ces résultats mettent en évidence la robustesse et les limites potentielles de l'algorithme MCT-Self-refine, ainsi que la nécessité d'une amélioration continue pour relever efficacement des défis plus complexes.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Le tableau 2 ci-dessous montre les résultats de l'application de l'algorithme MCT-Self-refine avec différents niveaux de complexité sur l'ensemble de données MATH. L'ensemble de données est divisé en cinq niveaux de difficulté, du niveau 1 (le plus facile) au niveau 5 (le plus difficile).

Les résultats montrent que le niveau 1 a le taux de réussite le plus élevé. Après 8 déploiements, MCTSr a atteint un taux de réussite de 90,16 % et a résolu 394 des 437 problèmes. À mesure que le nombre de déploiements augmente, le taux de réussite à ce niveau augmente considérablement.

Au niveau de difficulté 5 le plus difficile, après 8 déploiements, MCTSr a un taux de réussite de 34,06 %, résolvant 451 des 1324 problèmes. Cela illustre les limites de performances de cet algorithme dans des scénarios très complexes à mesure que la difficulté augmente.

La performance globale de tous les niveaux montre qu'après 8 déploiements, MCTSr a un taux de réussite cumulé de 58,24%, résolvant 2912 problèmes sur 5000. Ce taux de réussite constitue une amélioration significative par rapport au taux de réussite initial de Zero-Shot CoT de 24,36 %. Cela montre que l'augmentation du nombre de déploiements est cohérente avec l'augmentation du taux de réussite, soulignant l'efficacité de l'algorithme MCT-Self-refine pour améliorer les capacités de résolution de problèmes à différents niveaux de complexité mathématique.

Ces résultats valident également le potentiel de l'algorithme MCT-Self-refine dans des contextes académiques et de résolution de problèmes, et mettent en évidence son évolutivité et son adaptabilité à des problèmes de différents niveaux de complexité dans l'ensemble de données MATH.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Le tableau 3 ci-dessous montre l'algorithme MCT-Self-refne testé sur trois ensembles de données du concours mathématique de l'Olympiade : AlME, GAIC Math Odyssey et OlympiadBench.

AIME : De 2,36% pour Zero-Shot CoT (22 problèmes résolus) à 11,79% pour MCTSr (110 problèmes résolus).

GAIC Math Odyssey : Le taux de réussite est passé de 17,22 % (67 problèmes résolus) à 49,36 % (192 problèmes résolus).

OlympiadBench : Amélioration de 1,25 % sur Zero-Shot CoT (16 problèmes résolus) à 7,76 % sur MCTSr (99 problèmes résolus).

Ces résultats confirment l'applicabilité de l'algorithme MCT-Self-refine à des problèmes mathématiques inédits, indiquant ses avantages dans des environnements académiques compétitifs tels que les Olympiades.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

comme indiqué dans le tableau 4. Par rapport aux grands modèles à source fermée actuels, MCTSr peut améliorer efficacement les capacités de raisonnement mathématique des modèles open source à petits paramètres (tels que LLaMa-3) à un niveau comparable.

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn