Au cours des dernières années, des progrès significatifs ont été réalisés dans la recherche et l'amélioration des capacités de raisonnement des modèles de gros langues, avec un objectif fort sur l'amélioration de leur maîtrise de la résolution
Problèmes arithmétiques et mathématiques.
Un modèle avec un bon raisonnement arithmétique et mathématique peut aider à:
- Apprentissage personnalisé: les tuteurs alimentés par l'IA peuvent s'adapter aux besoins des élèves individuels, les enjoignant plus efficacement des concepts mathématiques complexes.
- Assistance à la résolution de problèmes: l'automatisation des explications étape par étape pour la résolution de problèmes améliore l'engagement et la compréhension des étudiants.
- Conception du curriculum: création de modules d'apprentissage adaptatifs et progressifs dans des sujets comme l'algèbre et le calcul.
Cet article explore comment les progrès du raisonnement mathématique sont à l'origine des innovations dans des modèles d'IA comme Qwen2.5-Math et ses applications dans l'apprentissage personnalisé, la résolution de problèmes et la conception du curriculum.
Objectifs d'apprentissage
- Comprenez et explorez la série Qwen2.5-Math et ses composants.
- Découvrez l'architecture du modèle QWEN2.5-Math.
- Gagnez une exposition pratique sur QWEN2.5-Math avec des exemples.
- Découvrez les performances de Qwen2.5-Math sur divers repères.
Table des matières
- Qu'est-ce que Qwen2.5-Math?
- Qwen2.5-Math vs Qwen2-Math
- Optimisation des données de formation
- Formation de modèle efficace
- Optimisation des performances du modèle
- Démo en cours d'exécution
- Conclusion
- Questions fréquemment posées
Qu'est-ce que Qwen2.5-Math?
La série Qwen2.5-Math est le dernier ajout à la série QWEN d'Alibaba Cloud de modèles de grande langue spécifiques aux Math. Il suit la version antérieure de Qwen2-Math, une série de modèles de langage mathématique spécialisés basés sur les LLM Qwen2. Ces modèles démontrent des capacités mathématiques supérieures, dépassant les deux alternatives open source et même certains modèles de source fermée comme GPT-4O.
Cette série démontre des améliorations de performances significatives sur la série QWEN2-Math sur les références mathématiques chinoises et anglaises. Bien que cette série applique la chaîne de pensées (COT) pour résoudre uniquement les problèmes mathématiques spécifiques à l'anglais, la série QWEN2.5-Math élargit ses capacités en incorporant le raisonnement COT et outil (TIR), pour résoudre efficacement les problèmes mathématiques en chinois et en anglais.
Qwen2.5-Math vs Qwen2-Math
La comparaison entre Qwen2.5-Math et Qwen2-Math met en évidence les progrès du raisonnement mathématique et des capacités de résolution de problèmes obtenus dans la dernière itération des modèles de langage spécifiques aux mathématiques d'Alibaba Cloud.
Propriété | Qwen2-Math | Qwen2.5-Math |
---|---|---|
Taille de données pré-formation | Tokens 700B (de Qwen Math Corpus v1) | Plus de 1t jetons (de Qwen Math Corpus v2) |
Langues prises en charge | Anglais | Anglais et chinois |
Approche | Chaîne de pensées (COT) | Chaîne de pensée (COT), raisonnement intégré à l'outil (TIR) |
Score de référence (GSM8K, mathématiques et MMLU-STEM) | 89.1, 60,5, 79.1 | 90.8, 66.8, 82,8 |
Variantes du modèle | Qwen2-Math-1.5b / 7b / 72b | Qwen2.5-Math-1.5b / 7b / 72b |
Optimisation des données de formation
La série Qwen2.5-Math est formée à l'aide du QWEN MATH CORPUS V2, comprenant plus de 1 billion de jetons de données mathématiques de haute qualité en anglais et en chinois. Cet ensemble de données comprend des données mathématiques synthétiques générées à l'aide du modèle QWEN2-Math-72B-Istruct et des données chinoises mathématiques agrégées provenant de contenu Web, de livres et de référentiels de code à travers plusieurs cycles de rappel.
Ensemble de données sur la chaîne de pensées (Cot)
L'ensemble de données de la chaîne de pensées (COT) pour QWEN2.5-Math est une collection complète de problèmes mathématiques visant à améliorer les capacités de raisonnement du modèle. Il comprend:
- 580k Problèmes mathématiques anglais et 500k, y compris les éléments annotés et synthétisés.
- Les données annotées dérivées de sources comme GSM8K, Math et Numinamath.
Ensemble de données de raisonnement intégré à l'outil (TIR)
Pour relever les défis de calcul et algorithmiques auxquels sont confrontés l'incitation au COT - telles que la résolution d'équations quadratiques ou les valeurs propres informatiques - l'ensemble de données de raisonnement intégré à l'outil (TIR) a été introduit. Cet ensemble de données améliore la compétence du modèle dans la manipulation symbolique et les calculs précis en lui permettant d'utiliser un interprète Python pour le raisonnement de tâches. Il comprend:
- Problèmes de 190K provenant de repères comme GSM8K, Math, Collegemath et Numinamath.
- Problèmes de 205K créés à l'aide de techniques de Mugglemath et Dotamath pour faire évoluer les requêtes dans les ensembles de formation GSM8K et mathématiques.
Formation de modèle efficace
Étant donné que le modèle QWEN2.5-Math est la version améliorée du modèle QWEN2-Math, sa formation est donc dérivée de QWEN2-Math comme suit:
- Les modèles Qwen2-Math s'entraînent sur Qwen Math Corpus V1, un ensemble de données de haute qualité qui contient environ 700 milliards de jetons de contenu mathématique.
- Les développeurs forment un modèle de récompense spécifique aux mathématiques, QWEN2-Math-RM, dérivé du modèle QWEN2-Math-72B.
- Les modèles de base de la série QWEN2.5 servent à l'initialisation des paramètres, à l'amélioration de la compréhension du langage, à la génération de code et aux capacités de raisonnement de texte.
- Après avoir entraîné le modèle de base QWEN2.5-Math, les développeurs forment un modèle de récompense spécifique aux mathématiques, Qwen2.5-Math-RM-72B, basé sur QWEN2.5-Math-72b. Ce modèle de récompense évolue les données SFT par échantillonnage de rejet pour le modèle SFT (QWEN2.5-Math-SFT).
- Un modèle d'instruct (qwen2.5-math-instruct) est construit à la fin pour polir la qualité des réponses. Ce modèle est créé par une itération supplémentaire à l'aide des modèles QWEN2-Math-Istruct et QWEN2.5-Math-RM-72B. Le processus intègre les données de raisonnement intégré aux outils (TIR) et les données SFT, affinées via l'optimisation des politiques relatives du groupe (GRPO), pour polir davantage les performances du modèle.
Optimisation des performances du modèle
L'amélioration des performances du modèle est essentielle pour fournir des résultats plus rapides et plus précis, garantissant l'efficacité et la fiabilité des applications.
Performance des modèles de base
Les modèles de base Qwen2.5-Math-1.5b / 7b / 72b ont réalisé des améliorations significatives des repères mathématiques anglais (GSM8K, mathématiques et MMLU-STEM) et des repères mathématiques chinoises (CMATH, Gaokao Math Cloze, et Gaokao Math QA) par rapport à Qwen2-Math-1.5b / 7b / 72b.
Par exemple, les modèles Qwen2.5-Math-1.5b / 7b / 72b montrent une amélioration significative de 5,4, 5,0, 6,3 sur les mathématiques et une amélioration des scores de 3,4, 12,2, 19,8 sur Gaokao Math QA.
Performance des modèles réglés par l'instruction
Le modèle QWEN2.5-Math-72B-Istruct a surpassé les deux modèles open source et les meilleurs modèles de source fermée, tels que GPT-4O et Gemini spécialisés par mathématiques 1,5 Pro.
Le modèle QWEN2.5-Math-72B-Istruct dépasse son prédécesseur (le modèle QWEN2-Math-72B-Istruct) en moyenne de 4,4 points en anglais et 6,1 points en chinois. Cette performance marque sa position de premier modèle mathématique open source disponible aujourd'hui.
Sur les références extrêmement difficiles telles que AIME 2024 et AMC23, des modèles comme Claude3 Opus, GPT-4 Turbo et Gemini 1.5 Pro résolvent seulement 1 ou 2 problèmes sur 30. En revanche, Qwen2.5-Math-72B-Istruct démontre des performances remarquables, résolvant 9 problèmes en mode COT de décodage gourmand et 12 problèmes en mode TIR. De plus, avec l'aide du modèle de récompense (RM), QWEN2.5-Math-7B-Istruct réalise 21 problèmes résolus impressionnants, présentant ses capacités de résolution mathématiques de problèmes supérieures.
Démo en cours d'exécution
Voyons la démo Qwen2.5-Math en utilisant l'espace HuggingFace ici.
Cet espace fournit une interface utilisateur basée sur le Web pour saisir des problèmes mathématiques ou arithmétiques dans le format d'image ou de texte pour tester les capacités du modèle.
Pour prendre en charge les multi-modalités, cet espace utilise QWEN2-VL pour OCR et QWEN2.5-Math pour le raisonnement mathématique.
Étape 1: Extraction du contenu lié aux mathématiques à l'aide de Qwen-vl
Qwen-VL (QWEN Barge Vision Language Model) est le modèle de langage de vision multimodal qui prend en charge les images, le texte comme entrées. Il aide naturellement l'anglais et le chinois à effectuer diverses tâches de génération d'image à texte comme le sous-titrage de l'image, le réponses visuelles, le raisonnement visuel, la reconnaissance de texte, etc.
La série Qwen-VL contient de nombreux modèles tels que Qwen-VL, Qwen-VL-Chat, Qwen-Vl-Plus, Qwen-Vl-Max
etc. Qwen-vl-Max est le modèle de langage visuel le plus capable de QWEN pour offrir des performances optimales sur une gamme encore plus large de tâches complexes.
Le système utilise le modèle QWEN-VL-MAX-0809 pour comprendre, traiter et extraire des informations textuelles des images d'entrée. La fonction process_image () reçoit d'abord l'image d'entrée et extrait le contenu lié aux mathématiques, assurant une transcription précise de toutes les formules en latex. Le système applique ensuite l'invite standard suivante pour extraire le contenu textuel lié aux mathématiques de l'image.
L'invite instruit: «Décrivez le contenu lié aux mathématiques dans cette image, assurant une transcription précise de toutes les formules en latex. Ne décrivez pas les détails non mathématiques. »
Importer un système d'exploitation OS.System ('PIP INSTALLATION DASHSCOPE -U') Importer Tempfile à partir du chemin d'importation Pathlib Importer des secrets importer dashscope à partir de Dashscope Import MultimodalConversation, génération à partir de l'image d'importation PIL Your_api_token = os.getenv ('your_api_token') dashscope.api_key = your_api_token Math_Messages = [] def process_image (image, devrait-converter = false): Global Math_Messages math_messages = [] # réinitialiser lorsque téléchargez l'image uplowed_file_dir = os.environ.get ("gradio_temp_dir") ou str ( Path (tempfile.getTempdir ()) / "Gradio" ) OS.Makedirs (Uploaded_file_dir, exist_ok = true) name = f "tmp {secrets.token_hex (20)}. jpg" filename = os.path.join (uploaded_file_dir, nom) Si devrait convertir: new_img = image.new ('rgb', size = (image.width, image.height), color = (255, 255, 255)) new_img.paste (image, (0, 0), masque = image) image = new_img image.save (nom de fichier) messages = [{ «rôle»: «système», 'Content': [{'texte': 'Vous êtes un assistant utile.'}] }, { «rôle»: «utilisateur», 'contenu': [ {'image': f'file: // {nom de fichier} '}, {'texte': 'Veuillez décrire le contenu lié aux mathématiques dans cette image, en veillant à ce que toutes les formules de latex soient correctement transcrites. Les détails non mathématiques n'ont pas besoin d'être décrits. '} ]] }] réponse = multimodalconversation.call (modèle = 'qwen-vl-max-0809', messages = messages) OS.Remove (nom de fichier) return réponse.output.choices [0] ["Message"] ["Contenu"] # Importer CSV
Étape2: raisonnement mathématique utilisant QWEN2.5-Math
Cette étape extrait la description de l'image, qui est ensuite transmise au modèle QWEN2.5 avec la question de l'utilisateur pour générer la réponse. Le modèle QWEN2.5-Math-72B-Istruct effectue le raisonnement mathématique dans ce processus.
def get_math_response (image_description, user_question): Global Math_Messages Sinon Math_Messages: Math_Messages.Apend ({'Role': 'System', 'Content': 'Vous êtes un assistant mathématique utile.'}) Math_Messages = Math_Messages [: 1] Si Image_Description n'est pas nul: contenu = f'image Description: {image_description} \ n \ n ' autre: contenu = '' Query = F "{Content} Question utilisateur: {user_question}" Math_Messages.Apend ({'Role': 'User', 'Content': Query}) réponse = génération.Call ( Model = "Qwen2.5-Math-72B-Istruct", messages = math_messages, result_format = 'message', Stream = vrai ) réponse = aucun pour le res en réponse: Si res.output n'est pas: continuer réponse = resp.output.choices [0] .Message.Content Rendre la réponse.replace ("\\", "\\\\") print (f'Query: {query} \ nanswer: {réponse} ') Si la réponse n'est aucune: math_messages.pop () autre: math_messages.append ({'rôle': 'assistant', 'contenu': réponse})
Ayant connu les modèles utilisés dans cet espace, voyons quelques exemples pour
Évaluer la capacité du modèle pour résoudre des problèmes mathématiques ou arithmétiques.
Exemple1
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle trouve les valeurs de x As 5 et Y comme 2. Il fournit également étape par étape
Raisonnement du langage naturel tout en trouvant les valeurs de x et y.
Exemple2
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle découvre la valeur de la dernière expression comme 50.
Exemple3
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle découvre la valeur de l'expression ci-dessus comme 5.
Conclusion
Dans cet article, nous avons exploré Qwen2.5-Math - une série de modèles mathématiques avec des capacités de raisonnement robustes. Nous avons examiné ses composants, ses données de formation, son architecture et ses performances sur divers repères standard. De plus, nous avons examiné la démo, en le testant avec une gamme d'exemples modérés à complexes.
Principaux à retenir
- Les modèles QWEN2.5-Math prennent en charge les capacités de raisonnement mathématique avancées et présentent des capacités de raisonnement mathématique avancées. Il utilise des techniques telles que la chaîne de pensées (COT) et le raisonnement intégré à l'outil (TIR).
- La série QWEN2.5 comprend plusieurs variantes basées sur le nombre de paramètres, avec des modèles disponibles en paramètres 1.5b, 7b et 72b.
- Les modèles QWEN2.5-Math exploitent 1 billion de jetons pour la pré-formation, une augmentation substantielle par rapport aux 700 milliards de jetons utilisés pour QWEN2-Math.
- Qwen2.5-Math dépasse Qwen2-Math à travers divers repères anglais et chinois. De plus, il surpasse les modèles comme Claude3 Opus, GPT-4 Turbo et Gemini 1.5 Pro sur des repères difficiles tels que AIME 2024.
Questions fréquemment posées
Q1. Quelle est la différence entre Qwen2.5-Math et Qwen2-Math?A. Qwen2.5-Math est une version améliorée de QWEN2-Math, offrant des performances améliorées, une meilleure précision dans la résolution de problèmes mathématiques complexes et des techniques de formation améliorées.
Q2. Quel modèle fonctionne mieux pour les tâches mathématiques complexes, QWEN2.5-Math ou Qwen2-Math?A. Qwen2.5-Math surpasse généralement QWEN2-Math sur des tâches complexes en raison de sa formation avancée et de ses capacités raffinées dans le raisonnement mathématique.
Q3. Comment Qwen2.5-Math et Qwen2-Math gèrent-ils le raisonnement mathématique?A. Les deux modèles sont conçus pour le raisonnement mathématique, mais Qwen2.5 utilise des algorithmes plus sophistiqués et des données de formation pour résoudre plus efficacement des problèmes difficiles.
Q4. Quelle est la signification des données de formation dans QWEN2.5-MATH VS QWEN2-Math?A. Qwen2.5-Math bénéficie d'un ensemble de données plus large et plus diversifié, ce qui améliore sa capacité à généraliser et à résoudre des problèmes mathématiques complexes plus précisément que Qwen2-Math.
Q5. Y a-t-il des différences dans la vitesse de traitement entre Qwen2.5-Math et Qwen2-Math?A. Qwen2.5 optimise le traitement plus rapide et fournit des réponses plus rapides par rapport à QWEN2-MATH tout en maintenant une grande précision.
Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.
