DeepSeek-Prover-V1.5 améliore considérablement l'efficacité et la précision de la génération de preuves en combinant l'apprentissage par renforcement et la recherche arborescente de Monte Carlo.
Les progrès de la technologie de l'IA et de la découverte mathématique sont étroitement liés comme jamais auparavant. Il y a quelque temps, la célèbre mathématicienne Teresa Tao a prononcé un discours sur le thème "Le potentiel de l'IA en science et en mathématiques" lors de la conférence publique Oxford Mathematics. Il souligne que l’intégration de l’IA dans les mathématiques permettra d’écrire des preuves formelles plus rapidement que les preuves humaines (qui sont sujettes aux erreurs). Il s’agira d’un tournant crucial, car l’utilisation de preuves formelles ne se limitera pas à vérifier des preuves existantes, mais sera également utilisée pour créer de nouvelles connaissances mathématiques. Cet objectif sera atteint grâce à une collaboration approfondie entre les mathématiciens humains et IA. Nous sommes sur le point d’inaugurer l’ère des « grandes mathématiques » ! Comme l'a dit Terence Tao, appliquer l'IA à la preuve formelle de théorèmes est devenue une opération quotidienne pour les mathématiciens. D'un autre côté, les scientifiques en IA travaillent également dur pour améliorer les performances et l'efficacité de l'IA dans la preuve formelle de théorèmes, comme le nouveau modèle récemment lancé par DeepSeek - DeepSeek-Prover-V1.5. DeepSeek-Prover-V1.5 est un modèle open source avec 7 milliards de paramètres. Il améliore considérablement l'efficacité et la précision de la génération de preuves en combinant l'apprentissage par renforcement (apprentissage par renforcement basé sur les commentaires de l'assistant de preuve, RLPAF) et la recherche arborescente de Monte Carlo (en particulier la variante proposée RMaxTS). DeepSeek-Prover-V1.5 surpasse tous les modèles open source en termes de théorème formel prouvé dans Lean 4. Voici les détails du rapport technique. Présentation du rapport sur le rapport https://arxiv.org/pdf/2408.08152Lien GitHub : https://github.com/deepseek-ai/DeepSeek-Prover-V1.5
Ces dernières années, en grande partie langages à grande échelle Les progrès dans le domaine des modèles ont grandement favorisé le développement de l'intelligence artificielle dans le raisonnement mathématique et la démonstration de théorèmes. Cependant, les modèles de langage sont encore confrontés à des défis importants dans la preuve formelle des théorèmes. Par exemple, les preuves utilisant des systèmes comme Lean et Isabelle nécessitent une dérivation rigoureuse pour satisfaire la spécification formelle du système de vérification. Même les modèles avancés comme GPT-4 sont incapables de gérer des preuves formelles complexes, ce qui met en évidence la complexité du codage et du raisonnement mathématique dans les preuves formelles. Un modèle de preuve de théorème formel efficace nécessite non seulement de comprendre la syntaxe et la sémantique des systèmes formels tels que Lean Proof Assistant, mais nécessite également de combiner un raisonnement mathématique abstrait avec des expressions formelles précises.
- Dans la preuve formelle de théorèmes, les modèles de langage adoptent généralement deux stratégies : la génération par étapes de preuve et la génération de preuves complètes.
-
L'étape de preuve est générée en prédisant et en vérifiant chaque stratégie, en utilisant des vérificateurs formels pour obtenir des informations mises à jour sur l'état actuel de la stratégie, et en combinant souvent des techniques de recherche arborescente pour construire des preuves efficaces. La génération de preuves complètes est plus efficace sur le plan informatique, générant l'intégralité du code de preuve en une seule fois sur la base de l'énoncé du théorème, réduisant ainsi la quantité de communication requise pour la coordination entre le modèle de preuve et le vérificateur formel du théorème.
Bien que DeepSeek-Prover-V1 ait obtenu des résultats SOTA dans Lean 4 avec une génération de preuves complètes, cette approche présente également ses défis uniques. Cela nécessite des prédictions de séquences à long terme sans informations intermédiaires sur l’état des politiques, et les politiques futures s’appuient sur ces résultats cachés. Dans le modèle de stratégie Lean, une preuve est construite à travers une série de stratégies qui changent l'état de la preuve. Cette séquentialité peut conduire à une accumulation d’erreurs, et une petite erreur peut faire dévier la preuve du chemin correct. Plus précisément, les modèles autorégressifs peuvent avoir une perception incorrecte des États politiques intermédiaires lorsqu’ils génèrent des preuves de croissance.
Pour intégrer de manière transparente les états politiques intermédiaires sans sacrifier la simplicité et l'efficacité informatique de la génération de preuves complètes, les chercheurs ont développé une approche unifiée dans DeepSeek-Prover-V1.5.Cette approche combine les avantages de la génération d'étapes de preuve et de la génération de preuves complètes via un mécanisme de troncature et de reprise. Le processus commence par la génération de preuves complètes standard, où le modèle de langage complète le code de preuve en fonction du préfixe de l'énoncé du théorème, qui est ensuite vérifié par le prouveur Lean. S’il s’avère exact, le processus se termine. Si une erreur est détectée, le code est tronqué à partir du premier message d'erreur et le code suivant est ignoré. Ensuite, utilisez le code de preuve généré avec succès comme indice pour générer le segment de preuve suivant. Afin d'améliorer la précision de la partie nouvellement complétée du modèle, le chercheur a ajouté le dernier statut du prouveur Lean 4 sous forme de commentaire à la fin de l'invite. Il convient de noter que cette approche ne se limite pas à repartir de la dernière stratégie appliquée avec succès. Les chercheurs ont intégré le mécanisme de troncature et de redémarrage dans Monte Carlo Tree Search (MCTS), et la stratégie de recherche arborescente organise les points de troncature. De plus, ils ont proposé un nouvel algorithme d’exploration sans récompense pour résoudre le problème de rareté des récompenses dans la recherche de preuves. Ils confèrent aux agents de recherche arborescente une force motrice intrinsèque, à savoir la curiosité, pour explorer largement l’espace politique et étatique. Ces modules algorithmiques étendent leur modèle complet de génération de preuves en un outil de preuve de théorème flexible et interactif, capable d'exploiter efficacement les commentaires des assistants de preuve pour générer diverses solutions. Les chercheurs ont proposé un cadre complet pour développer des outils de preuve mathématique formelle basés sur des modèles de langage. Ils ont intégré plusieurs éléments clés : pré-formation mathématique à grande échelle, construction et amélioration du formel. corpus mathématiques, apprentissage par renforcement en ligne basé sur les commentaires de l'assistant de preuve et méthodologies de recherche arborescente pour la planification à long terme des preuves de théorèmes. Les codes des modèles pré-entraînés, des modèles de réglage fin supervisés, des modèles d'apprentissage par renforcement et des algorithmes de recherche arborescente de Monte Carlo sont accessibles au public pour des recherches et des applications ultérieures. Les chercheurs ont amélioré les capacités du modèle de base en matière de preuve formelle de théorèmes et de raisonnement mathématique grâce à une pré-formation supplémentaire sur les mathématiques et les données de code de haute qualité, en se concentrant sur le Lean et Isabelle Les langages formels tels que Metamath et Metamath sont largement utilisés comme assistants de preuve. Les chercheurs ont amélioré l'ensemble de données de complétion du code Lean 4 en mettant en œuvre deux techniques d'augmentation des données. Tout d’abord, ils ont utilisé DeepSeek-Coder V2 236B pour annoter les commentaires CoT (chaîne de pensée) aux côtés du code Lean 4, alignant ainsi la preuve formelle du théorème avec le raisonnement en langage naturel. Deuxièmement, ils insèrent des informations intermédiaires sur l’état de la politique dans le code de preuve Lean 4, permettant à leur modèle d’exploiter plus efficacement les commentaires du compilateur. Ils ont ensuite utilisé cet ensemble de données pour affiner le modèle pré-entraîné. 3. Apprentissage par renforcement Les chercheurs ont utilisé l'algorithme GRPO pour effectuer RLPAF (apprentissage par renforcement à partir des commentaires de l'assistant de preuve, apprentissage par renforcement basé sur les commentaires de l'assistant de preuve) sur le modèle de réglage fin supervisé. Les résultats de la vérification du Lean Prover servent de supervision de récompense, améliorant la cohérence du modèle avec la spécification formelle du système de vérification. 4. Recherche arborescente de Monte CarloLes chercheurs ont avancé la méthode de recherche arborescente dans la preuve formelle du théorème en introduisant une nouvelle abstraction et un algorithme de recherche correspondant. Leur mécanisme de troncature et de redémarrage sert d'abstraction état-action qui intègre de manière transparente le processus de recherche arborescente dans un cadre complet de génération de preuves. Ils présentent RMaxTS, un algorithme innovant de recherche arborescente de Monte Carlo qui exploite la stratégie RMax pour résoudre le défi d'exploration des récompenses éparses dans les problèmes de recherche de preuves. En attribuant des récompenses intrinsèques, cet algorithme encourage les agents de preuve à générer diverses voies de planification, favorisant ainsi une exploration approfondie de l'espace de preuve. 1. Ensemble de données miniF2F de niveau secondaireDans le paramètre de génération de preuves complètes par méthode à passage unique, DeepSeek-Prover-V1.5 sur l'ensemble de tests de miniF2F Un taux de réussite de 60,2 % a été atteint, soit 10,2 points de pourcentage de plus que les 50,0 % de DeepSeek-Prover-V1. Lorsqu'il est combiné à la technologie de recherche arborescente, le taux de réussite est encore amélioré, atteignant un nouveau SOTA de 63,5 %. 2. L'ensemble de données ProofNet de niveau premier cycle DeepSeek-Prover-V1.5 montre également de solides performances dans le paramètre de génération de preuves complètes de la méthode monocanal de ProofNet, avec un taux de réussite de 100 % sur l'ensemble de vérification. 21,6 % et 23,7 % sur l’ensemble de test. Lorsqu'ils sont combinés avec des techniques de recherche arborescente, ces résultats sont encore améliorés, atteignant un nouveau SOTA de 25,4 % sur l'ensemble de validation et de 25,3 % sur l'ensemble de test.Afin d'améliorer la capacité du modèle de langage à générer des preuves formelles et à raisonner via le langage mathématique, les chercheurs ont ensuite pré-entraîné le modèle de base et ont nommé ce modèle amélioré DeepSeek -ProverV1. 5 bases. Ensuite, l'article traite des méthodes et des processus impliqués dans le réglage fin supervisé (SFT) de DeepSeek-Prover-V1.5. Plus précisément, les chercheurs ont augmenté l’ensemble de données de preuve DeepSeekProver-V1 en ajoutant des annotations explicatives détaillées. Cette amélioration vise à améliorer la cohérence entre les descriptions en langage naturel et le code Lean 4, favorisant ainsi un meilleur raisonnement mathématique formel. En outre, les chercheurs ont incorporé des informations intermédiaires sur l’état de la politique en tant que tâche de prédiction auxiliaire pour prendre en charge le mécanisme de troncature et de redémarrage utilisé dans le processus de recherche arborescente de Monte Carlo, et ont appelé le modèle résultant DeepSeek-ProverV1.5-SFT. Apprentissage par renforcement basé sur les commentaires de l'assistant de preuvePour améliorer encore les performances de DeepSeek-Prover-V1.5-SFT, l'étude a introduit une étape d'apprentissage par renforcement, aboutissant à DeepSeek-Prover-V1. Modèle .5-RL. Cette étape utilise l'apprentissage par renforcement (RL) pour améliorer les performances sur la base des commentaires de vérification du prouveur Lean 4. Voici les détails spécifiques de ce processus RL. Conseils de formation. Dans la phase d'apprentissage par renforcement, l'étude utilise des énoncés de théorème partiels de l'ensemble de données de réglage fin supervisé comme indices de formation. Environ 4 500 énoncés de théorèmes uniques ont été retenus après filtrage. Chaque théorème est accompagné d'indices CoT et non-CoT pour améliorer les capacités de génération de preuves du modèle dans les deux modes. Récompenses. Lors de la formation d'un LLM via RL, le modèle de récompense formé fournit souvent des signaux de rétroaction. En revanche, la démonstration formelle de théorèmes bénéficie d'une vérification rigoureuse des preuves générées par des assistants de preuve, offrant ainsi des avantages significatifs. Plus précisément, chaque preuve générée recevra une récompense de 1 si elle est vérifiée correctement et une récompense de 0 sinon. Bien que ce signal de récompense binaire soit précis, il est également clairsemé, en particulier pour les théorèmes qui constituent un défi pour les modèles de réglage fin supervisés. Pour atténuer cette rareté, nous avons sélectionné des indices de formation difficiles mais réalisables pour un réglage fin supervisé du modèle, comme décrit ci-dessus. Algorithme d'apprentissage par renforcement. Cette étude adopte l'optimisation relative des politiques de groupe (GRPO) comme algorithme RL de cet article, qui montre une efficacité et une efficience supérieures à celles du PPO. Plus précisément, GRPO extrait un ensemble de preuves candidates pour chaque indice de théorème et optimise le modèle en fonction des récompenses relatives des résultats au sein de l'ensemble. Évaluation. La figure 3 présente l'analyse comparative de chaque étape de formation sur les ensembles de données miniF2F et ProofNet. Le mode CoT surpasse systématiquement le mode non-CoT dans la plupart des contextes. Recherche arborescente de Monte Carlo orientée exploration Pour mettre en œuvre une approche de recherche arborescente dans un cadre de génération de preuves holistique, cette étude introduit une abstraction d'arbre de preuves pour définir des espaces d'état et d'action personnalisés, et utilise des espaces d'état et d'action tronqués. et redémarrez le mécanisme. Les chercheurs décomposent d’abord la preuve incomplète en une séquence de nœuds d’arbre correspondant à chaque étape de preuve, puis utilisent le contenu partiel stocké dans ces nœuds d’arbre pour poursuivre le processus de génération de preuve. La figure 4 illustre le processus de construction d'un arbre de recherche de preuves à partir de la génération globale de preuves. Troncation : Cette étude construit des arbres de recherche de preuves au niveau politique, où chaque bord d'arbre représente une étape de transition unique de l'état politique. Premièrement, l’étude soumet l’intégralité de la preuve générée par le modèle à un prouveur Lean et l’analyse dans une politique. La preuve est ensuite tronquée à la première erreur de vérification, garantissant que tout le code de stratégie ultérieur peut être appliqué avec succès pour faire avancer la preuve jusqu'au théorème souhaité. Le code de stratégie est divisé en plusieurs extraits de code, chacun contenant un code de stratégie valide et ses annotations de chaîne de pensée associées, correspondant à un seul bord d'arbre représentant une transition d'état de stratégie. Avec cette abstraction, chaque code de politique est converti en une séquence de nœuds d'arborescence, formant un chemin depuis la racine vers un nœud spécifique. Recommencer : Dans Lean 4, différentes stratégies peuvent conduire au même état de stratégie, ce qui signifie que chaque nœud de l'arbre de preuve peut correspondre à plusieurs codes de stratégie pouvant atteindre le même résultat. Pour résoudre ce problème, les chercheurs stockent un ensemble de ces codes de politique équivalents à chaque nœud.Lorsque l'agent de recherche arborescente développe un nœud, il sélectionne de manière aléatoire une stratégie comme indice pour le modèle de langage. Récompenses intrinsèques de la recherche arborescente de Monte CarloLe prochain article présente l'algorithme d'exploration intrinsèque axé sur les récompenses - RMax appliqué à la recherche arborescente (RMaxTS), dont l'exploration sans récompense est incorporée dans la preuve problème de recherche. RMax appliqué aux SCTM. Cette étude utilise RMax, un mécanisme d'exploration classique, pour construire la récompense intrinsèque de la recherche arborescente de Monte Carlo. Dans le contexte de la recherche de preuves, où aucune récompense externe n'est fournie tant que la preuve n'est pas complète, ce processus algorithmique est similaire à ZeroRMax, où l'exploration de l'agent est motivée uniquement par les récompenses intrinsèques, c'est-à-dire la définition de . La récompense intrinsèque de l'étape d'expansion de l'arbre dépend de l'ajout ou non de nouveaux nœuds à l'arbre de recherche Cette heuristique peut potentiellement réduire la génération redondante et augmenter l'efficacité des échantillons. Dans cette section, les chercheurs utilisent les deux benchmarks miniF2F et ProofNet pour évaluer la capacité de preuve de théorème de DeepSeek-Prover-V1.5. Le premier comprend des exercices de niveau secondaire et des problèmes de compétition, tandis que le second implique des théorèmes de premier cycle. Pour assurer la cohérence, les chercheurs ont utilisé le même modèle de formation et la même configuration d'inférence que dans l'évaluation, montrant les résultats de la génération de preuves complètes et des méthodes de recherche arborescente de Monte Carlo. Tout d'abord, l'article présente l'analyse comparative de DeepSeek-Prover-V1.5 et de certains modèles SOTA précédents, en se concentrant sur ses performances et ses progrès.
GPT-3.5 et GPT-4 sont des modèles d'IA génératifs avancés développés par OpenAI et reconnus pour leur efficacité dans une variété de tâches, y compris la génération de code célèbre. Bien que ces modèles ne soient pas conçus spécifiquement pour la démonstration de théorèmes, leur large plage de paramètres offre des fonctionnalités importantes. COPRA facilite l'évaluation de ces modèles dans la preuve formelle de théorèmes, c'est un agent d'apprentissage contextuel qui exploite ces grands modèles de langage pour proposer des applications tactiques. De plus, les chercheurs discutent également de Llemma, une famille de modèles de langage formés sur un large éventail de corpus mathématiques généraux, qui sont souvent utilisés comme modèles de base pour la preuve formelle de théorèmes. - Modèle spécialisé pour les mathématiques formelles
GPT-f est une première tentative d'appliquer Transformers à la génération d'étapes de preuve pour les tâches de preuve de théorèmes. Il utilise le module de recherche du meilleur premier pour construire. une preuve complète. Certains développements ultérieurs incluent ReProver, LLMStep et Lean-STaR. Hypertree Proof Search explore l'application de la recherche arborescente de Monte Carlo dans la preuve formelle de théorèmes à l'aide de Lean. Au cours de la même période, InternLM2-Math et InternLM2-StepProver ont également affiché d'excellentes performances. Ensuite, les chercheurs ont comparé ces modèles avec DeepSeek-Prover-V1.5. Le Tableau 1 fournit une analyse comparative de diverses méthodes de preuve de théorèmes sur l'ensemble de données de test miniF2F. Dans le cadre de génération de preuves complètes à canal unique, DeepSeekProver-V1.5-RL a le taux de réussite le plus élevé, atteignant 60,2 %, soit 10,2 points de pourcentage de plus que les 50,0 % de DeepSeek-Prover-V1. DeepSeek-Prover-V1.5-RL limite le budget d'échantillonnage à 128 tentatives et prouve 51,6 % des problèmes, surpassant considérablement les autres méthodes de génération à l'épreuve complète et à égalité avec les principales méthodes de recherche arborescente. Dans la catégorie des méthodes de recherche arborescente, DeepSeek-Prover-V1.5-RL + RMaxTS ouvre la voie avec un taux de réussite de 62,7 %, établissant un nouveau niveau SOTA et creusant l'écart avec les méthodes existantes. Il convient de noter que DeepSeek-Prover-V1.5-RL ne nécessite que 3 200 échantillons de preuve complets pour atteindre un taux de réussite de 54,9 %, dépassant le niveau SOTA précédent d'InternLM2-StepProver, qui nécessitait 64 exécutions ×. Il faut 3 200 recherches dans les arbres pour obtenir un taux de réussite de 54,5 %. Le tableau 2 répertorie l'analyse comparative de diverses méthodes de preuve de théorèmes sur l'ensemble de données ProofNet. Les taux de réussite de DeepSeek-Prover-V1.5-RL sur l'ensemble des données ProofNet ont atteint respectivement 22,6 % et 25,3 %.Diese Ergebnisse übertreffen die bestehenden SOTA-Methoden ReProver (13,8 %) und InternLM2-StepProver (18,1 %). Wenn die Anzahl der vollständigen Versuche zur Beweisgenerierung auf 3200 begrenzt ist, beweist DeepSeek-Prover-V1.5 auch 21,7 % der Theoreme, was einer Verbesserung von 3,6 % gegenüber dem vorherigen hochmodernen InternLM2-StepProver entspricht. Erneute Untersuchung der Wirkung von Trainingsstrategien bei groß angelegten StichprobenDie Forscher untersuchten die Wirkung mehrerer Trainingsmodule in groß angelegten Stichprobenumgebungen erneut und konzentrierten sich dabei auf die Generierung vollständiger Beweise auf einem Kanal und Monte-Carol-Baumsuche. Tabelle 3 vergleicht die Leistung von zwei Generationsmodi, Nicht-CoT und CoT, am miniF2F-Testdatensatz und zeigt, dass mit zunehmendem Stichprobenbudget der Vorteil von CoT gegenüber dem Nicht-CoT-Modus verstärkt wird. Im Ablationsexperiment testeten die Forscher das Algorithmusdesign von RMaxTS. Experimente werden im CoT-Modus mit DeepSeek-Prover-V1.5-RL am miniF2F-Testdatensatz durchgeführt. Wie in Abbildung 5 dargestellt, zeigt die linke Seite die Kurve der Pass@K-Genauigkeit innerhalb von 6400 generierten Stichproben und die rechte Seite zeigt die Ergebnisse mit einer größeren Stichprobengröße. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Déclaration:Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn