7B开源数学模型干翻千亿GPT-4，中国团队出品

7B开源数学模型干翻千亿GPT-4，中国团队出品

Feb 07, 2024 pm 05:03 PM

ai数据

7B开源模型，数学能力超过了千亿规模的GPT-4！

它的表现可谓是突破了开源模型的极限，连阿里通义的研究员也感叹缩放定律是不是失效了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

无需借助任何外部工具，它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中，它第一个在该数据集上达到一半的准确率，甚至超过了早期和API版本的GPT-4。

7B开源数学模型干翻千亿GPT-4，中国团队出品

这一表现让整个开源社区震惊，Stability AI的创始人Emad Mostaque称赞研发团队令人印象深刻，潜力被低估了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

它，就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力，研究团队使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链（CoT）提示的情况下，DeepSeekMath的表现均超越了其他开源模型，其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比，DeepSeekMath的成绩也有大幅提升。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果考虑闭源模型，DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5，在中文的CMATH上超越了GPT-4，MATH上的表现也与之接近。

但要注意的是，GPT-4按泄露规格是一个千亿参数的庞然大物，而DeepSeekMath参数量只有7B。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果允许使用工具（Python）进行辅助，DeepSeekMath在竞赛难度（MATH）数据集上的表现还能再提高7个百分点。

7B开源数学模型干翻千亿GPT-4，中国团队出品

那么，DeepSeekMath优异表现的背后，都应用了哪些技术呢？

基于代码模型打造

为了获得比从通用模型更好的数学能力，研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现，无论是在两阶段训练还是一阶段训练设置下，代码训练相比于通用数据训练都可以提升模型的数学能力。

7B开源数学模型干翻千亿GPT-4，中国团队出品

在Coder的基础上，研究团队继续训练了5000亿token，数据分布如下图：

7B开源数学模型干翻千亿GPT-4，中国团队出品

训练数据方面，DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据，得到了DeepSeekMath Corpus，总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的，经过四次迭代，研究团队收集了3500多万个数学网页，Token数量达到了1200亿。

7B开源数学模型干翻千亿GPT-4，中国团队出品

为了确保训练数据中不包含测试集的内容（因为GSM8K、MATH中的内容在互联网上大量存在），研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量，研究团队分别用MathPile等多个数据集训练了1500亿token，结果Corpus在多个数学基准上效果明显领先。

7B开源数学模型干翻千亿GPT-4，中国团队出品

对齐阶段，研究团队首先构建了一个776K样本的中英文数学指导监督微调（SFT）数据集，其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习（RL）阶段，研究团队使用了一种名为“基于组的相对策略优化”（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO是近端策略优化（PPO）的一种变体，过程中传统的价值函数被替换为一个基于组的相对奖励估计，可以减少训练过程中的计算和内存需求。

同时，GRPO通过迭代过程进行训练，奖励模型会根据策略模型的输出不断更新，以确保策略的持续改进。

7B开源数学模型干翻千亿GPT-4，中国团队出品

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队，是国内开源模型领域的一名“头部选手”。

此前，该团队就曾推出过首个国产开源MoE模型DeepSeek MoE，它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型，DeepSeek MoE在代码和数学任务上的表现就已十分亮眼，而且资源消耗非常低。

7B开源数学模型干翻千亿GPT-4，中国团队出品

代码方面，该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时，它也击败了GPT-3.5-Turbo，成为最接近GPT-4-Turbo的开源代码模型。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如前文所说，此次推出的DeepSeekMath，也正是在Coder的基础之上打造的。

而在X上，已经有人开始在期待Coder和Math的MoE版本了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

论文地址：https://arxiv.org/abs/2402.03300

以上是7B开源数学模型干翻千亿GPT-4，中国团队出品的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

如何使用Huggingface Smollm建立个人AI助手

如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量：建立个人聊天机器人CLI 在最近的过去，个人AI助手的概念似乎是科幻小说。想象一下科技爱好者亚历克斯（Alex）梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划，精神健康的AI专心分析

通过斯坦福大学激动人心的新计划，精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行，著名的精神科医生兼神经科学家汤姆·因斯尔（Tom Insel）博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说：“我们要确保WNBA仍然是每个人，球员，粉丝和公司合作伙伴，感到安全，重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析Vidhya

Python内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言，尤其是在数据科学和生成AI中。在处理大型数据集时，有效的数据操作（存储，管理和访问）至关重要。我们以前涵盖了数字和ST

与替代方案相比，Openai新型号的第一印象

与替代方案相比，Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前，一个重要的警告：AI性能是非确定性的，并且特定于高度用法。简而言之，您的里程可能会有所不同。不要将此文章（或任何其他）文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合？

AI投资组合|如何为AI职业建立投资组合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合：初学者和专业人士指南创建引人注目的投资组合对于确保在人工智能（AI）和机器学习（ML）中的角色至关重要。本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么

代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果？倦怠，效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。不过，代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai：AI为学生打架

Google与Openai：AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系？两周前，Openai提出了强大的短期优惠，在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

1 个月前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

1 个月前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

3 周前ByDDD

Windows 11 KB5054979中的新功能以及如何解决更新问题

2 周前ByDDD

威尔R.E.P.O.有交叉游戏吗？

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中，你可以继续在那里关注我们。MinGW：GNU编译器集合（GCC）的本地Windows移植版本，可自由分发的导入库和用于构建本地Windows应用程序的头文件；包括对MSVC运行时的扩展，以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

热门话题

gmail邮箱登陆入口在哪里

7554

15

1382

52

steam的账户名称是什么格式

83

11

win11激活密钥永久

59

19

NYT连接提示和答案

25

96