搜索
首页科技周边人工智能普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

数学,作为科学的基石,一直以来都是研究和创新的关键领域。

最近,普林斯顿大学等七家机构联合发布了一个专门用于数学的大语言模型LLEMMA,性能媲美谷歌Minerva 62B,并公开了其模型、数据集和代码,为数学研究带来了前所未有的机会和资源。

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

论文地址:https://arxiv.org/abs/2310.10631

数据集的链接地址为:https://huggingface.co/datasets/EleutherAI/proof-pile-2

项目地址:https://github.com/EleutherAI/math-lm 需要进行重写的是:

LLEMMA承袭了Code Llama的基础,在Proof-Pile-2上进行了预训练。

Proof-Pile-2,一个庞大的混合数据集,包含着550亿token的信息,其中包括科学论文、富含数学内容的网页数据以及数学代码。

这个数据集的一部分,Algebraic Stack,更是汇集了来自17种语言的11B数据集,覆盖了数值、符号和数学证明。

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

拥有7亿和34亿个参数,在MATH基准测试中表现卓越,超越了所有已知的开源基础模型。

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

在与Google Research开发的专门用于数学的封闭模型相比,参数量只有Minerva 62B一半的条件下,Llemma 34B获得了几乎相同的性能。

Llemma超越了Minerva在参数基础上解决问题的性能,它利用计算工具和形式定理证明,为数学问题的解决提供了无限的可能性

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

它能够方便地使用Python解释器和形式证明器,进一步展示了它在解决数学问题方面的能力

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

由于对形式证明数据的特别重视,Algebraic Stack成为了第一个展示出少样本定理证明能力的开放基础模型

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

研究人员还开放共享了LLEMMA的所有训练数据和代码。与以往的数学模型不同,LLEMMA是一个开源的、开放共享的模型,为整个科研社区敞开大门。

研究人员试图量化模型记忆效果,结果令人惊讶的是,他们发现Llemma对于训练集中出现的问题并没有变得更加准确。由于代码和数据是公开的,研究人员鼓励其他人复制并扩展他们的分析

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

训练数据和实验配置

LLEMMA是一个专门用于数学的大型语言模型,它在Code Llama的基础上继续在Proof-Pile-2上进行预训练。Proof-Pile-2是一个包含科学论文、含有数学内容的网页数据和数学代码的混合数据集,包含了550亿个标记

AlgebraicStack的代码部分包含了11B的数据集,其中包括17种语言源代码,覆盖数值、符号和形式数学,并已公开发布

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

LLEMMA的每个模型都是由Code Llama进行初始化的。Code Llama模型是一个仅包含解码器的语言模型,它是从Llama 2进行初始化的

作者对Code Llama模型在Proof-Pile-2上进行了进一步的训练,使用标准的自回归语言建模目标。对于7B模型,作者进行了200B个标记的训练,而对于34B模型,作者进行了50B个标记的训练

评估方法和实验结果

作者使用Proof-Pile-2对Code Llama进行继续预训练,并且在MATH和GSM8k等多个数学问题解决任务上对LLEMMA进行few-shot评估。

研究人员发现LLEMMA在这些任务上都有显著的提升,并且能够适应不同的问题类型和难度。

LLEMMA 34B在极高难度的数学题中展示了比其他开放式基础模型更强大的数学能力

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

在数学基准测试上,LLEMMA在Proof-Pile-2上的持续预训练改善了五个数学基准测试的few-shot性能。

在GSM8k上,LLEMMA 34B的改进比Code Llama高出20个百分点,在MATH上高出13个百分点。而且,LLEMMA 7B也优于相似大小的专有的Minerva模型,这证明了在Proof-Pile-2上进行预训练能有效提高大模型的数学解题能力

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

在解决数学问题时,利用计算工具如Python等,LLEMMA在MATH+Python和GSM8k+Python任务上都比Code Llama更出色

在使用MATH和GSM8k数据集时,LLEMMA的性能优于没有使用工具时的性能

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

在数学证明任务中,LLEMMA表现出色

非正式到正式证明的任务目标是在给定一个正式陈述、一个非正式的LATEX陈述和一个非正式的LATEX证明的情况下,生成一个正式证明,然后通过证明助手进行验证。

正式到正式证明则是通过生成一系列证明步骤(策略)来证明一个正式陈述。结果表明,LLEMMA在Proof-Pile-2上的持续预训练改善了这两个正式定理证明任务的few-shot性能。

普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练

LLEMMA不仅拥有令人瞩目的性能、还开放了革命性的数据集、展现了惊人的问题解决能力。

开源共享的精神,标志着数学界进入了一个新的时代。数学的未来在这里,而我们每一个数学爱好者、研究者和教育者都将从中受益。

LLEMMA的出现为我们提供了前所未有的工具,让数学问题的解决变得更加高效和创新。

此外,开放共享的理念也将促进全球科研社区更加深入的合作,共同推动科学的进步。

以上是普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

4个新的双子座功能您可以错过4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

Camunda为经纪人AI编排编写了新的分数Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

策划的企业AI体验是否有价值?策划的企业AI体验是否有价值?Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

如何为抹布找到最佳的多语言嵌入模型?如何为抹布找到最佳的多语言嵌入模型?Apr 23, 2025 am 11:44 AM

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

麝香:奥斯汀的机器人需要每10,000英里进行干预麝香:奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

AI震惊的枢轴:从工作工具到数字治疗师和生活教练AI震惊的枢轴:从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将

公司竞争AI代理的采用公司竞争AI代理的采用Apr 23, 2025 am 11:40 AM

AI代理商的兴起正在改变业务格局。 与云革命相比,预计AI代理的影响呈指数增长,有望彻底改变知识工作。 模拟人类决策的能力

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)