Qwen2.5-Moth入门-人工智能-PHP中文网

首页

科技周边

人工智能

Qwen2.5-Moth入门

William Shakespeare

Mar 13, 2025 am 11:03 AM

在过去的几年中，在研究和提高大型语言模型的推理能力方面取得了重大进展，重点是提高他们在解决解决方面的水平
算术和数学问题。

具有良好算术和数学推理的模型可以帮助：

个性化学习： AI驱动的导师可以适应各个学生的需求，使他们更有效地了解复杂的数学概念。
解决问题的援助：自动逐步解释解决问题可改善学生的参与和理解。
课程设计：在代数和微积分等主题中创建适应性和渐进的学习模块。

本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习，解决问题和课程设计中的应用。

学习目标

了解并探索QWEN2.5-MATH系列及其组成部分。
了解QWEN2.5-MATH模型体系结构。
在QWEN2.5-MATH上获得动手接触，并进行示例。
了解QWEN2.5-MATH在各种基准测试中的性能。

什么是QWEN2.5-MOTH？

QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源，特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本，这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能，超过了开源替代方案，甚至超过了一些封闭源模型，例如GPT-4O。

该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链（COT）来解决特定于英语的数学问题，但QWEN2.5-MATH系列通过纳入COT和工具集成推理（TIR）来扩展其功能，以有效地解决中文和英语的数学问题。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步，在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。

财产	Qwen2-Math	QWEN2.5-MATH
培训前数据大小	700b令牌（来自Qwen Math Corpus V1）	超过1T令牌（来自QWEN MATH COPUS V2）
支持语言	英语	英语和中文
方法	经营链（COT）	经过思考链（COT），工具集成推理（TIR）
基准分数（GSM8K，数学和MMLU-STEM）	89.1，60.5，79.1	90.8，66.8，82.8
模型变体	QWEN2-MATH-1.5B/7B/72B	QWEN2.5-MATH-1.5B/7B/72B

优化培训数据

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的，其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容，书籍和代码存储库中采购的汇总数学中国数据。

经营链（COT）数据集

QWEN2.5-MATH的经营链（COT）数据集是旨在提高模型推理能力的数学问题的全面集合。它包括：

580k英语和500K数学问题，包括注释和合成项目。
从GSM8K，MATH和NUMINAMATH等来源得出的注释数据。

工具集成推理（TIR）数据集

为了解决COT提示所面临的计算和算法挑战，例如求解二次方程或计算特征值 - 引入了工具集成推理（TIR）数据集。该数据集通过使其能够将Python解释器用于推理任务，从而增强了模型对符号操作和精确计算的熟练程度。它包括：

从GSM8K，MATH，COLLEGEMATH和NUMINAMATH等基准的190K问题。
205K的问题是使用Mugglemath和Dotamath技术在GSM8K和数学训练集中进化的问题创建的。

有效的模型培训

Qwen2.5-Moth入门

由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本，因此其训练来自QWEN2-MATH，如下所示：

QWEN2-MATH模型在QWEN MATH COPUS V1上训练，这是一个高质量的数据集，其中包含大约7000亿个数学内容的令牌。
开发人员训练特定于数学的奖励模型QWEN2-MATH-RM，该模型源自QWEN2-MATH-72B模型。
QWEN2.5系列基本模型可用于参数初始化，增强语言理解，代码生成和文本推理功能。
在训练基本QWEN2.5-MATH模型之后，开发人员基于QWEN2.5-MATH-72B训练了特定于数学的奖励模型QWEN2.5-MATH-RM-72B。该奖励模型通过拒绝采样SFT模型（QWEN2.5-MATH-SFT）进化了SFT数据。
最终建立了指示模型（QWEN2.5-MATH-MATH-INSTRUCT），以增强响应的质量。该模型是通过使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的额外迭代来创建的。该过程结合了通过小组相对策略优化（GRPO）完善的工具集成推理（TIR）数据和SFT数据，以进一步增强模型的性能。

优化模型性能

增强模型性能是提供更快，更准确的结果，确保应用程序效率和可靠性的关键。

基本模型性能

基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准（GSM8K， MATH和MMLU-STEM）和中国数学基准测试（CMATH，GAOKAO MATH CLOZE和GAOKAO MATH QA）方面取得了重大改进，因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入门

例如，QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善，而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令调整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型，例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入门

QWEN2.5-MATH-72B-INSTRUCT模型超过其前身（QWEN2-MATH-72B-INSTRUCTY模型），平均英语为4.4点，中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。

在极具挑战性的基准（例如Aime 2024和AMC23）上，诸如Claude3 Opus，GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下，QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能，在贪婪的解码COT模式中解决了9个问题，在TIR模式下解决了12个问题。此外，在奖励模型（RM）的协助下，QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题，展示了其出色的数学问题解决能力。

Qwen2.5-Moth入门

运行演示

让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。

该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面，以测试模型的功能。

为了支持多模式，此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。

步骤1：使用qwen-vl提取与数学相关的内容

QWEN-VL（QWEN大视觉语言模型）是多模式视觉语言模型，支持图像，文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务，例如图像字幕，视觉问题，视觉推理，文本识别等。

QWEN-VL系列包含许多模型，例如QWEN-VL，QWEN-VL-CHAT，QWEN-VL-PLUS，QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型，用于在更广泛的复杂任务上提供最佳性能。

该系统使用QWEN-VL-MAX-0809模型从输入图像中理解，处理和提取文本信息。 Process_image（）函数首先接收输入图像并提取与数学相关的内容，从而确保任何乳胶公式的准确转录。然后，该系统应用以下标准提示，以从图像中提取文本，数学相关的内容。

提示指示：“描述此图像中与数学相关的内容，以确保任何乳胶公式的准确转录。不要描述非数学细节。”

导入操作系统

OS.System（'PIP INSTALS DASHSCOPE -U'）
导入tempfile
从pathlib导入路径
进口秘密
导入Dashscope
从dashscope导入多模式转换，生成
从PIL导入图像



your_api_token = os.getEnv（'your_api_token'）
dashscope.api_key = your_api_token
Math_messages = []
def process_image（image，shory conconvert = false）：

    全局Math_messages
    Math_messages = []＃重置上传图像
    uploaded_file_dir = os.environ.get（“ gradio_temp_dir”）或str（
        路径（tempfile.getTempdir（）） /“ gradio”
    ）
    OS.Makedirs（uploaded_file_dir，equent_ok = true）
    

    name = f“ tmp {secrets.token_hex（20）}。jpg”
    filename = os.path.join（uploaded_file_dir，名称）

    如果应该：
        new_img = image.new（'rgb'，size =（图像。
        new_img.paste（图像，（0，0），蒙版=图像）
        图像= new_img
    image.save（文件名）
    

    消息= [{{
        “角色”：“系统”，
        'content'：[{'text'：'你是一个有益的助手。'}]]
    }，{
        “角色”：“用户”，
        '内容'： [
            {'image'：f'file：// {filename}'}，，
            {'text'：'请描述此图像中与数学相关的内容，以确保正确转录任何乳胶公式。非数学细节不需要描述。'}
        这是给出的
    ]]
    
    响应=多模式conversation.call（model ='qwen-vl-max-0809'，messages =消息）
    

    OS.Remove（文件名）
    
    返回响应

步骤2：使用QWEN2.5-MATH的数学推理

此步骤提取图像描述，然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。

 def get_math_response（image_description，user_question）：
    全局Math_messages
    如果不是Math_messages：
        MATH_MESSAGES.APPEND（{'角色'：'system'，'content'：'您是一个有用的数学助手。'}））
    Math_messages = Math_messages [：1]
    如果image_description不是没有：
        content = f'image描述：{image_description} \ n \ n'
    别的：
        内容=''
    查询= f“ {content}用户问题：{user_question}”
    Math_messages.append（{'row'：'user'，'content'：query}）
    响应= generation.call（	
        model =“ qwen2.5-Math-72b-instruct”，
        消息= Math_messages，	
        result_format ='消息'，
        流= true
    ）
    答案=无
    响应RESP：
        如果desp.Output是无：
            继续
        答案= resp.Output.Choices [0] .message.content
        屈服答案（“ \\”，“ \\\\”）
    print（f'query：{query} \ nanswer：{wonse}'）
    如果答案是没有的：
        Math_messages.pop（）
    别的：
        MATH_MESSAGES.APPEND（{'角色'：'Assistans'，'content'：answer}）

知道该空间中使用的模型后，让我们看看一些示例
评估模型能力解决数学或算术问题。

示例1

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型找到x为5和y的值。它也提供了分步
自然语言推理，同时找到x和y的值。

示例2

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现最后一个表达式的值为50。

示例3

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现上述表达式为5。

结论

在本文中，我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件，培训数据，体系结构以及各种标准基准测试的性能。此外，我们回顾了演示，并以一系列中等至复杂的示例进行了测试。

关键要点

QWEN2.5-MATH模型支持中文和英语，并展示高级数学推理能力。它利用了诸如思想链（COT）和工具集成推理（TIR）之类的技术。
QWEN2.5系列包括基于参数数量的多个变体，模型可在1.5b，7b和72b参数中可用。
QWEN2.5-MATH模型利用了1万亿代币进行预训练，与QWEN2-MATH使用的7000亿代币相比，大幅增加了。
QWEN2.5-MATH超过各种英语和中文基准的QWEN2-MATH。此外，它的表现优于Claude3 Opus，GPT-4 Turbo和Gemini 1.5 Pro等诸如AIME 2024等具有挑战性的基准的模型。