搜索

在过去的几年中,在研究和提高大型语言模型的推理能力方面取得了重大进展,重点是提高他们在解决解决方面的水平
算术和数学问题。

具有良好算术和数学推理的模型可以帮助:

  • 个性化学习: AI驱动的导师可以适应各个学生的需求,使他们更有效地了解复杂的数学概念。
  • 解决问题的援助:自动逐步解释解决问题可改善学生的参与和理解。
  • 课程设计:在代数和微积分等主题中创建适应性和渐进的学习模块。

本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习,解决问题和课程设计中的应用。

学习目标

  • 了解并探索QWEN2.5-MATH系列及其组成部分。
  • 了解QWEN2.5-MATH模型体系结构。
  • 在QWEN2.5-MATH上获得动手接触,并进行示例。
  • 了解QWEN2.5-MATH在各种基准测试中的性能。

目录

  • 什么是QWEN2.5-MOTH?
  • Qwen2.5-Math vs Qwen2-Math
  • 优化培训数据
  • 有效的模型培训
  • 优化模型性能
  • 运行演示
  • 结论
  • 常见问题

什么是QWEN2.5-MOTH?

QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源,特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本,这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能,超过了开源替代方案,甚至超过了一些封闭源模型,例如GPT-4O。

该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链(COT)来解决特定于英语的数学问题,但QWEN2.5-MATH系列通过纳入COT和工具集成推理(TIR)来扩展其功能,以有效地解决中文和英语的数学问题。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步,在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。

财产 Qwen2-Math QWEN2.5-MATH
培训前数据大小 700b令牌(来自Qwen Math Corpus V1) 超过1T令牌(来自QWEN MATH COPUS V2)
支持语言 英语 英语和中文
方法 经营链(COT) 经过思考链(COT),工具集成推理(TIR)
基准分数(GSM8K,数学和MMLU-STEM) 89.1,60.5,79.1 90.8,66.8,82.8
模型变体 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

优化培训数据

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的,其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容,书籍和代码存储库中采购的汇总数学中国数据。

经营链(COT)数据集

QWEN2.5-MATH的经营链(COT)数据集是旨在提高模型推理能力的数学问题的全面集合。它包括:

  • 580k英语和500K数学问题,包括注释和合成项目。
  • 从GSM8K,MATH和NUMINAMATH等来源得出的注释数据。

工具集成推理(TIR)数据集

为了解决COT提示所面临的计算和算法挑战,例如求解二次方程或计算特征值 - 引入了工具集成推理(TIR)数据集。该数据集通过使其能够将Python解释器用于推理任务,从而增强了模型对符号操作和精确计算的熟练程度。它包括:

  • 从GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基准的190K问题。
  • 205K的问题是使用Mugglemath和Dotamath技术在GSM8K和数学训练集中进化的问题创建的。

有效的模型培训

Qwen2.5-Moth入门

由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本,因此其训练来自QWEN2-MATH,如下所示:

  • QWEN2-MATH模型在QWEN MATH COPUS V1上训练,这是一个高质量的数据集,其中包含大约7000亿个数学内容的令牌。
  • 开发人员训练特定于数学的奖励模型QWEN2-MATH-RM,该模型源自QWEN2-MATH-72B模型。
  • QWEN2.5系列基本模型可用于参数初始化,增强语言理解,代码生成和文本推理功能。
  • 在训练基本QWEN2.5-MATH模型之后,开发人员基于QWEN2.5-MATH-72B训练了特定于数学的奖励模型QWEN2.5-MATH-RM-72B。该奖励模型通过拒绝采样SFT模型(QWEN2.5-MATH-SFT)进化了SFT数据。
  • 最终建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增强响应的质量。该模型是通过使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的额外迭代来创建的。该过程结合了通过小组相对策略优化(GRPO)完善的工具集成推理(TIR)数据和SFT数据,以进一步增强模型的性能。

优化模型性能

增强模型性能是提供更快,更准确的结果,确保应用程序效率和可靠性的关键。

基本模型性能

基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准(GSM8K, MATH和MMLU-STEM)和中国数学基准测试(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改进,因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入门

例如,QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令调整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入门

QWEN2.5-MATH-72B-INSTRUCT模型超过其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英语为4.4点,中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。

在极具挑战性的基准(例如Aime 2024和AMC23)上,诸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能,在贪婪的解码COT模式中解决了9个问题,在TIR模式下解决了12个问题。此外,在奖励模型(RM)的协助下,QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题,展示了其出色的数学问题解决能力。

Qwen2.5-Moth入门

运行演示

让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。

该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面,以测试模型的功能。

为了支持多模式,此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。

步骤1:使用qwen-vl提取与数学相关的内容

QWEN-VL(QWEN大视觉语言模型)是多模式视觉语言模型,支持图像,文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务,例如图像字幕,视觉问题,视觉推理,文本识别等。

QWEN-VL系列包含许多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型,用于在更广泛的复杂任务上提供最佳性能。

该系统使用QWEN-VL-MAX-0809模型从输入图像中理解,处理和提取文本信息。 Process_image()函数首先接收输入图像并提取与数学相关的内容,从而确保任何乳胶公式的准确转录。然后,该系统应用以下标准提示,以从图像中提取文本,数学相关的内容。

提示指示:“描述此图像中与数学相关的内容,以确保任何乳胶公式的准确转录。不要描述非数学细节。”

导入操作系统

OS.System('PIP INSTALS DASHSCOPE -U')
导入tempfile
从pathlib导入路径
进口秘密
导入Dashscope
从dashscope导入多模式转换,生成
从PIL导入图像



your_api_token = os.getEnv('your_api_token')
dashscope.api_key = your_api_token
Math_messages = []
def process_image(image,shory conconvert = false):

    全局Math_messages
    Math_messages = []#重置上传图像
    uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str(
        路径(tempfile.getTempdir()) /“ gradio”
    )
    OS.Makedirs(uploaded_file_dir,equent_ok = true)
    

    name = f“ tmp {secrets.token_hex(20)}。jpg”
    filename = os.path.join(uploaded_file_dir,名称)

    如果应该:
        new_img = image.new('rgb',size =(图像。
        new_img.paste(图像,(0,0),蒙版=图像)
        图像= new_img
    image.save(文件名)
    

    消息= [{{
        “角色”:“系统”,
        'content':[{'text':'你是一个有益的助手。'}]]
    },{
        “角色”:“用户”,
        '内容': [
            {'image':f'file:// {filename}'},,
            {'text':'请描述此图像中与数学相关的内容,以确保正确转录任何乳胶公式。非数学细节不需要描述。'}
        这是给出的
    ]]
    
    响应=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息)
    

    OS.Remove(文件名)
    
    返回响应

步骤2:使用QWEN2.5-MATH的数学推理

此步骤提取图像描述,然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。

 def get_math_response(image_description,user_question):
    全局Math_messages
    如果不是Math_messages:
        MATH_MESSAGES.APPEND({'角色':'system','content':'您是一个有用的数学助手。'}))
    Math_messages = Math_messages [:1]
    如果image_description不是没有:
        content = f'image描述:{image_description} \ n \ n'
    别的:
        内容=''
    查询= f“ {content}用户问题:{user_question}”
    Math_messages.append({'row':'user','content':query})
    响应= generation.call(	
        model =“ qwen2.5-Math-72b-instruct”,
        消息= Math_messages,	
        result_format ='消息',
        流= true
    )
    答案=无
    响应RESP:
        如果desp.Output是无:
            继续
        答案= resp.Output.Choices [0] .message.content
        屈服答案(“ \\”,“ \\\\”)
    print(f'query:{query} \ nanswer:{wonse}')
    如果答案是没有的:
        Math_messages.pop()
    别的:
        MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})

知道该空间中使用的模型后,让我们看看一些示例
评估模型能力解决数学或算术问题。

示例1

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型找到x为5和y的值。它也提供了分步
自然语言推理,同时找到x和y的值。

示例2

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现最后一个表达式的值为50。

示例3

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现上述表达式为5。

结论

在本文中,我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件,培训数据,体系结构以及各种标准基准测试的性能。此外,我们回顾了演示,并以一系列中等至复杂的示例进行了测试。

关键要点

  • QWEN2.5-MATH模型支持中文和英语,并展示高级数学推理能力。它利用了诸如思想链(COT)和工具集成推理(TIR)之类的技术。
  • QWEN2.5系列包括基于参数数量的多个变体,模型可在1.5b,7b和72b参数中可用。
  • QWEN2.5-MATH模型利用了1万亿代币进行预训练,与QWEN2-MATH使用的7000亿代币相比,大幅增加了。
  • QWEN2.5-MATH超过各种英语和中文基准的QWEN2-MATH。此外,它的表现优于Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等诸如AIME 2024等具有挑战性的基准的模型。

常见问题

Q1。 QWEN2.5-MATH和QWEN2-MATH有什么区别?

A. QWEN2.5-MATH是Qwen2-Math的升级版本,提供了提高的性能,更好地解决复杂的数学问题以及增强的训练技术。

Q2。哪种模型对于复杂的数学任务,qwen2.5-MATH或QWEN2-MATH的表现更好?

A. QWEN2.5-MATH通常在数学推理中的高级培训和精致能力上,在复杂任务上的表现通常优于QWEN2-MATH。

Q3。 QWEN2.5-MATH和QWEN2-MATH如何处理数学推理?

答:两种模型均设计用于数学推理,但是QWEN2.5使用更复杂的算法和训练数据来更有效地解决挑战性问题。

Q4。 QWEN2.5-MATH与QWEN2-MATH中训练数据的重要性是什么?

答:QWEN2.5-MATH受益于更大,更多样化的数据集,这比QWEN2-MATH更准确地提高了其概括和解决复杂数学问题的能力。

Q5。 QWEN2.5-MATH和QWEN2-MATH之间的处理速度有什么差异吗?

A. QWEN2.5优化了更快的处理,并且与QWEN2-MATH相比提供了更快的响应,同时保持高精度。

本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。

以上是Qwen2.5-Moth入门的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
商业领袖生成引擎优化指南(GEO)商业领袖生成引擎优化指南(GEO)May 03, 2025 am 11:14 AM

Google正在领导这一转变。它的“ AI概述”功能已经为10亿用户提供服务,在任何人单击链接之前提供完整的答案。[^2] 其他球员也正在迅速获得地面。 Chatgpt,Microsoft Copilot和PE

该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗May 03, 2025 am 11:13 AM

2022年,他创立了社会工程防御初创公司Doppel,以此做到这一点。随着网络犯罪分子越来越高级的AI模型来涡轮增压,Doppel的AI系统帮助企业对其进行了大规模的对抗 - 更快,更快,

世界模型如何从根本上重塑生成AI和LLM的未来世界模型如何从根本上重塑生成AI和LLM的未来May 03, 2025 am 11:12 AM

瞧,通过与合适的世界模型进行交互,可以实质上提高生成的AI和LLM。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括

2050年五月:我们要庆祝什么?2050年五月:我们要庆祝什么?May 03, 2025 am 11:11 AM

劳动节2050年。全国范围内的公园充满了享受传统烧烤的家庭,而怀旧游行则穿过城市街道。然而,庆祝活动现在具有像博物馆般的品质 - 历史重演而不是纪念C

您从未听说过的DeepFake探测器准确是98%您从未听说过的DeepFake探测器准确是98%May 03, 2025 am 11:10 AM

为了帮助解决这一紧急且令人不安的趋势,在2025年2月的TEM期刊上进行了同行评审的文章,提供了有关该技术深击目前面对的最清晰,数据驱动的评估之一。 研究员

量子人才战争:隐藏的危机威胁技术的下一个边界量子人才战争:隐藏的危机威胁技术的下一个边界May 03, 2025 am 11:09 AM

从大大减少制定新药所需的时间到创造更绿色的能源,企业将有巨大的机会打破新的地面。 不过,有一个很大的问题:严重缺乏技能的人

原型:这些细菌可以产生电力原型:这些细菌可以产生电力May 03, 2025 am 11:08 AM

几年前,科学家发现某些类型的细菌似乎通过发电而不是吸收氧气而呼吸,但是它们是如何做到的,这是一个谜。一项发表在“杂志”杂志上的新研究确定了这种情况的发生方式:Microb

AI和网络安全:新政府的100天估算AI和网络安全:新政府的100天估算May 03, 2025 am 11:07 AM

在本周的RSAC 2025会议上,Snyk举办了一个及时的小组,标题为“前100天:AI,Policy&Cyber​​security Collide如何相撞”,其中包括全明星阵容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前记者和帕特纳(Partne)

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具