在过去的几年中,在研究和提高大型语言模型的推理能力方面取得了重大进展,重点是提高他们在解决解决方面的水平
算术和数学问题。
具有良好算术和数学推理的模型可以帮助:
本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习,解决问题和课程设计中的应用。
QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源,特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本,这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能,超过了开源替代方案,甚至超过了一些封闭源模型,例如GPT-4O。
该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链(COT)来解决特定于英语的数学问题,但QWEN2.5-MATH系列通过纳入COT和工具集成推理(TIR)来扩展其功能,以有效地解决中文和英语的数学问题。
QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步,在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。
财产 | Qwen2-Math | QWEN2.5-MATH |
---|---|---|
培训前数据大小 | 700b令牌(来自Qwen Math Corpus V1) | 超过1T令牌(来自QWEN MATH COPUS V2) |
支持语言 | 英语 | 英语和中文 |
方法 | 经营链(COT) | 经过思考链(COT),工具集成推理(TIR) |
基准分数(GSM8K,数学和MMLU-STEM) | 89.1,60.5,79.1 | 90.8,66.8,82.8 |
模型变体 | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的,其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容,书籍和代码存储库中采购的汇总数学中国数据。
QWEN2.5-MATH的经营链(COT)数据集是旨在提高模型推理能力的数学问题的全面集合。它包括:
为了解决COT提示所面临的计算和算法挑战,例如求解二次方程或计算特征值 - 引入了工具集成推理(TIR)数据集。该数据集通过使其能够将Python解释器用于推理任务,从而增强了模型对符号操作和精确计算的熟练程度。它包括:
由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本,因此其训练来自QWEN2-MATH,如下所示:
增强模型性能是提供更快,更准确的结果,确保应用程序效率和可靠性的关键。
基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准(GSM8K, MATH和MMLU-STEM)和中国数学基准测试(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改进,因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。
例如,QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。
QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。
QWEN2.5-MATH-72B-INSTRUCT模型超过其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英语为4.4点,中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。
在极具挑战性的基准(例如Aime 2024和AMC23)上,诸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能,在贪婪的解码COT模式中解决了9个问题,在TIR模式下解决了12个问题。此外,在奖励模型(RM)的协助下,QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题,展示了其出色的数学问题解决能力。
让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。
该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面,以测试模型的功能。
为了支持多模式,此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。
QWEN-VL(QWEN大视觉语言模型)是多模式视觉语言模型,支持图像,文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务,例如图像字幕,视觉问题,视觉推理,文本识别等。
QWEN-VL系列包含许多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型,用于在更广泛的复杂任务上提供最佳性能。
该系统使用QWEN-VL-MAX-0809模型从输入图像中理解,处理和提取文本信息。 Process_image()函数首先接收输入图像并提取与数学相关的内容,从而确保任何乳胶公式的准确转录。然后,该系统应用以下标准提示,以从图像中提取文本,数学相关的内容。
提示指示:“描述此图像中与数学相关的内容,以确保任何乳胶公式的准确转录。不要描述非数学细节。”
导入操作系统 OS.System('PIP INSTALS DASHSCOPE -U') 导入tempfile 从pathlib导入路径 进口秘密 导入Dashscope 从dashscope导入多模式转换,生成 从PIL导入图像 your_api_token = os.getEnv('your_api_token') dashscope.api_key = your_api_token Math_messages = [] def process_image(image,shory conconvert = false): 全局Math_messages Math_messages = []#重置上传图像 uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str( 路径(tempfile.getTempdir()) /“ gradio” ) OS.Makedirs(uploaded_file_dir,equent_ok = true) name = f“ tmp {secrets.token_hex(20)}。jpg” filename = os.path.join(uploaded_file_dir,名称) 如果应该: new_img = image.new('rgb',size =(图像。 new_img.paste(图像,(0,0),蒙版=图像) 图像= new_img image.save(文件名) 消息= [{{ “角色”:“系统”, 'content':[{'text':'你是一个有益的助手。'}]] },{ “角色”:“用户”, '内容': [ {'image':f'file:// {filename}'},, {'text':'请描述此图像中与数学相关的内容,以确保正确转录任何乳胶公式。非数学细节不需要描述。'} 这是给出的 ]] 响应=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息) OS.Remove(文件名) 返回响应
此步骤提取图像描述,然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。
def get_math_response(image_description,user_question): 全局Math_messages 如果不是Math_messages: MATH_MESSAGES.APPEND({'角色':'system','content':'您是一个有用的数学助手。'})) Math_messages = Math_messages [:1] 如果image_description不是没有: content = f'image描述:{image_description} \ n \ n' 别的: 内容='' 查询= f“ {content}用户问题:{user_question}” Math_messages.append({'row':'user','content':query}) 响应= generation.call( model =“ qwen2.5-Math-72b-instruct”, 消息= Math_messages, result_format ='消息', 流= true ) 答案=无 响应RESP: 如果desp.Output是无: 继续 答案= resp.Output.Choices [0] .message.content 屈服答案(“ \\”,“ \\\\”) print(f'query:{query} \ nanswer:{wonse}') 如果答案是没有的: Math_messages.pop() 别的: MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
知道该空间中使用的模型后,让我们看看一些示例
评估模型能力解决数学或算术问题。
包含以下问题语句的输入映像 -
该模型找到x为5和y的值。它也提供了分步
自然语言推理,同时找到x和y的值。
包含以下问题语句的输入映像 -
该模型发现最后一个表达式的值为50。
包含以下问题语句的输入映像 -
该模型发现上述表达式为5。
在本文中,我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件,培训数据,体系结构以及各种标准基准测试的性能。此外,我们回顾了演示,并以一系列中等至复杂的示例进行了测试。
A. QWEN2.5-MATH是Qwen2-Math的升级版本,提供了提高的性能,更好地解决复杂的数学问题以及增强的训练技术。
Q2。哪种模型对于复杂的数学任务,qwen2.5-MATH或QWEN2-MATH的表现更好?A. QWEN2.5-MATH通常在数学推理中的高级培训和精致能力上,在复杂任务上的表现通常优于QWEN2-MATH。
Q3。 QWEN2.5-MATH和QWEN2-MATH如何处理数学推理?答:两种模型均设计用于数学推理,但是QWEN2.5使用更复杂的算法和训练数据来更有效地解决挑战性问题。
Q4。 QWEN2.5-MATH与QWEN2-MATH中训练数据的重要性是什么?答:QWEN2.5-MATH受益于更大,更多样化的数据集,这比QWEN2-MATH更准确地提高了其概括和解决复杂数学问题的能力。
Q5。 QWEN2.5-MATH和QWEN2-MATH之间的处理速度有什么差异吗?A. QWEN2.5优化了更快的处理,并且与QWEN2-MATH相比提供了更快的响应,同时保持高精度。
本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。
以上是Qwen2.5-Moth入门的详细内容。更多信息请关注PHP中文网其他相关文章!