首页 >科技周边 >人工智能 >Qwen2.5-Moth入门

Qwen2.5-Moth入门

William Shakespeare
William Shakespeare原创
2025-03-13 11:03:10883浏览

在过去的几年中,在研究和提高大型语言模型的推理能力方面取得了重大进展,重点是提高他们在解决解决方面的水平
算术和数学问题。

具有良好算术和数学推理的模型可以帮助:

  • 个性化学习: AI驱动的导师可以适应各个学生的需求,使他们更有效地了解复杂的数学概念。
  • 解决问题的援助:自动逐步解释解决问题可改善学生的参与和理解。
  • 课程设计:在代数和微积分等主题中创建适应性和渐进的学习模块。

本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习,解决问题和课程设计中的应用。

学习目标

  • 了解并探索QWEN2.5-MATH系列及其组成部分。
  • 了解QWEN2.5-MATH模型体系结构。
  • 在QWEN2.5-MATH上获得动手接触,并进行示例。
  • 了解QWEN2.5-MATH在各种基准测试中的性能。

目录

  • 什么是QWEN2.5-MOTH?
  • Qwen2.5-Math vs Qwen2-Math
  • 优化培训数据
  • 有效的模型培训
  • 优化模型性能
  • 运行演示
  • 结论
  • 常见问题

什么是QWEN2.5-MOTH?

QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源,特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本,这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能,超过了开源替代方案,甚至超过了一些封闭源模型,例如GPT-4O。

该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链(COT)来解决特定于英语的数学问题,但QWEN2.5-MATH系列通过纳入COT和工具集成推理(TIR)来扩展其功能,以有效地解决中文和英语的数学问题。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步,在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。

财产 Qwen2-Math QWEN2.5-MATH
培训前数据大小 700b令牌(来自Qwen Math Corpus V1) 超过1T令牌(来自QWEN MATH COPUS V2)
支持语言 英语 英语和中文
方法 经营链(COT) 经过思考链(COT),工具集成推理(TIR)
基准分数(GSM8K,数学和MMLU-STEM) 89.1,60.5,79.1 90.8,66.8,82.8
模型变体 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

优化培训数据

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的,其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容,书籍和代码存储库中采购的汇总数学中国数据。

经营链(COT)数据集

QWEN2.5-MATH的经营链(COT)数据集是旨在提高模型推理能力的数学问题的全面集合。它包括:

  • 580k英语和500K数学问题,包括注释和合成项目。
  • 从GSM8K,MATH和NUMINAMATH等来源得出的注释数据。

工具集成推理(TIR)数据集

为了解决COT提示所面临的计算和算法挑战,例如求解二次方程或计算特征值 - 引入了工具集成推理(TIR)数据集。该数据集通过使其能够将Python解释器用于推理任务,从而增强了模型对符号操作和精确计算的熟练程度。它包括:

  • 从GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基准的190K问题。
  • 205K的问题是使用Mugglemath和Dotamath技术在GSM8K和数学训练集中进化的问题创建的。

有效的模型培训

Qwen2.5-Moth入门

由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本,因此其训练来自QWEN2-MATH,如下所示:

  • QWEN2-MATH模型在QWEN MATH COPUS V1上训练,这是一个高质量的数据集,其中包含大约7000亿个数学内容的令牌。
  • 开发人员训练特定于数学的奖励模型QWEN2-MATH-RM,该模型源自QWEN2-MATH-72B模型。
  • QWEN2.5系列基本模型可用于参数初始化,增强语言理解,代码生成和文本推理功能。
  • 在训练基本QWEN2.5-MATH模型之后,开发人员基于QWEN2.5-MATH-72B训练了特定于数学的奖励模型QWEN2.5-MATH-RM-72B。该奖励模型通过拒绝采样SFT模型(QWEN2.5-MATH-SFT)进化了SFT数据。
  • 最终建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增强响应的质量。该模型是通过使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的额外迭代来创建的。该过程结合了通过小组相对策略优化(GRPO)完善的工具集成推理(TIR)数据和SFT数据,以进一步增强模型的性能。

优化模型性能

增强模型性能是提供更快,更准确的结果,确保应用程序效率和可靠性的关键。

基本模型性能

基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准(GSM8K, MATH和MMLU-STEM)和中国数学基准测试(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改进,因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入门

例如,QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令调整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入门

QWEN2.5-MATH-72B-INSTRUCT模型超过其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英语为4.4点,中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。

在极具挑战性的基准(例如Aime 2024和AMC23)上,诸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能,在贪婪的解码COT模式中解决了9个问题,在TIR模式下解决了12个问题。此外,在奖励模型(RM)的协助下,QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题,展示了其出色的数学问题解决能力。

Qwen2.5-Moth入门

运行演示

让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。

该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面,以测试模型的功能。

为了支持多模式,此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。

步骤1:使用qwen-vl提取与数学相关的内容

QWEN-VL(QWEN大视觉语言模型)是多模式视觉语言模型,支持图像,文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务,例如图像字幕,视觉问题,视觉推理,文本识别等。

QWEN-VL系列包含许多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型,用于在更广泛的复杂任务上提供最佳性能。

该系统使用QWEN-VL-MAX-0809模型从输入图像中理解,处理和提取文本信息。 Process_image()函数首先接收输入图像并提取与数学相关的内容,从而确保任何乳胶公式的准确转录。然后,该系统应用以下标准提示,以从图像中提取文本,数学相关的内容。

提示指示:“描述此图像中与数学相关的内容,以确保任何乳胶公式的准确转录。不要描述非数学细节。”

导入操作系统

OS.System('PIP INSTALS DASHSCOPE -U')
导入tempfile
从pathlib导入路径
进口秘密
导入Dashscope
从dashscope导入多模式转换,生成
从PIL导入图像



your_api_token = os.getEnv('your_api_token')
dashscope.api_key = your_api_token
Math_messages = []
def process_image(image,shory conconvert = false):

    全局Math_messages
    Math_messages = []#重置上传图像
    uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str(
        路径(tempfile.getTempdir()) /“ gradio”
    )
    OS.Makedirs(uploaded_file_dir,equent_ok = true)
    

    name = f“ tmp {secrets.token_hex(20)}。jpg”
    filename = os.path.join(uploaded_file_dir,名称)

    如果应该:
        new_img = image.new('rgb',size =(图像。
        new_img.paste(图像,(0,0),蒙版=图像)
        图像= new_img
    image.save(文件名)
    

    消息= [{{
        “角色”:“系统”,
        'content':[{'text':'你是一个有益的助手。'}]]
    },{
        “角色”:“用户”,
        '内容': [
            {'image':f'file:// {filename}'},,
            {'text':'请描述此图像中与数学相关的内容,以确保正确转录任何乳胶公式。非数学细节不需要描述。'}
        这是给出的
    ]]
    
    响应=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息)
    

    OS.Remove(文件名)
    
    返回响应

步骤2:使用QWEN2.5-MATH的数学推理

此步骤提取图像描述,然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。

 def get_math_response(image_description,user_question):
    全局Math_messages
    如果不是Math_messages:
        MATH_MESSAGES.APPEND({'角色':'system','content':'您是一个有用的数学助手。'}))
    Math_messages = Math_messages [:1]
    如果image_description不是没有:
        content = f'image描述:{image_description} \ n \ n'
    别的:
        内容=''
    查询= f“ {content}用户问题:{user_question}”
    Math_messages.append({'row':'user','content':query})
    响应= generation.call(	
        model =“ qwen2.5-Math-72b-instruct”,
        消息= Math_messages,	
        result_format ='消息',
        流= true
    )
    答案=无
    响应RESP:
        如果desp.Output是无:
            继续
        答案= resp.Output.Choices [0] .message.content
        屈服答案(“ \\”,“ \\\\”)
    print(f'query:{query} \ nanswer:{wonse}')
    如果答案是没有的:
        Math_messages.pop()
    别的:
        MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})

知道该空间中使用的模型后,让我们看看一些示例
评估模型能力解决数学或算术问题。

示例1

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型找到x为5和y的值。它也提供了分步
自然语言推理,同时找到x和y的值。

示例2

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现最后一个表达式的值为50。

示例3

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现上述表达式为5。

结论

在本文中,我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件,培训数据,体系结构以及各种标准基准测试的性能。此外,我们回顾了演示,并以一系列中等至复杂的示例进行了测试。

关键要点

  • QWEN2.5-MATH模型支持中文和英语,并展示高级数学推理能力。它利用了诸如思想链(COT)和工具集成推理(TIR)之类的技术。
  • QWEN2.5系列包括基于参数数量的多个变体,模型可在1.5b,7b和72b参数中可用。
  • QWEN2.5-MATH模型利用了1万亿代币进行预训练,与QWEN2-MATH使用的7000亿代币相比,大幅增加了。
  • QWEN2.5-MATH超过各种英语和中文基准的QWEN2-MATH。此外,它的表现优于Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等诸如AIME 2024等具有挑战性的基准的模型。

常见问题

Q1。 QWEN2.5-MATH和QWEN2-MATH有什么区别?

A. QWEN2.5-MATH是Qwen2-Math的升级版本,提供了提高的性能,更好地解决复杂的数学问题以及增强的训练技术。

Q2。哪种模型对于复杂的数学任务,qwen2.5-MATH或QWEN2-MATH的表现更好?

A. QWEN2.5-MATH通常在数学推理中的高级培训和精致能力上,在复杂任务上的表现通常优于QWEN2-MATH。

Q3。 QWEN2.5-MATH和QWEN2-MATH如何处理数学推理?

答:两种模型均设计用于数学推理,但是QWEN2.5使用更复杂的算法和训练数据来更有效地解决挑战性问题。

Q4。 QWEN2.5-MATH与QWEN2-MATH中训练数据的重要性是什么?

答:QWEN2.5-MATH受益于更大,更多样化的数据集,这比QWEN2-MATH更准确地提高了其概括和解决复杂数学问题的能力。

Q5。 QWEN2.5-MATH和QWEN2-MATH之间的处理速度有什么差异吗?

A. QWEN2.5优化了更快的处理,并且与QWEN2-MATH相比提供了更快的响应,同时保持高精度。

本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。

以上是Qwen2.5-Moth入门的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn