LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

PHPz

Mar 15, 2024 pm 12:07 PM

工程

合成資料持續解鎖大模型的數學推理潛力！

數學問題解決能力一直被視為衡量語言模型智慧程度的重要指標。通常只有規模極大的模型或經過大量數學相關預訓練的模型才能有機會在數學問題上表現出色。

近日，由Swin-Transformer 團隊打造，來自西安交通大學、中國科學技術大學、清華大學和微軟亞洲研究院的學者共同完成的研究工作Xwin 顛覆了這個認知，揭示了通用預訓練下7B（即70 億參數）規模的語言模型（LLaMA-2-7B）在數學問題解決方面已經展現出較強的潛力，並可使用基於合成數據的監督微調方法促使模型愈發穩定地將數學能力激發出來。

這項研究發佈在 arXiv 上，題為《Common 7B Language Models Already Possess Strong Math Capabilities》。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

論文連結：https://arxiv.org/pdf/2403.04706.pdf
程式碼連結：https://github.com/Xwin-LM/Xwin-LM

#研究團隊首先只使用7.5K 數據，對LLaMA- 2-7B 模型指令微調，進而評估模型在GSM8K 和MATH 的表現。實驗結果表明，當每個測試集中的問題從256 個產生的答案中選擇最佳答案時，測試準確率可分別高達97.7% 和72.0%，這一結果說明即使是通用預訓練下7B 量級的小模型，也具備產生優質答案的巨大潛力，這項發現挑戰了以往的觀點，即強大的數學推理潛力並非僅限於大規模和數學相關預訓練模型。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

然而研究也指出，尽管已具备强大的数学推理潜力，但当前语言模型的主要问题是难以一致地激发其内在的数学能力。例如，在前面的实验中如果只考虑每个问题的一次生成的答案，那么在 GSM8K 和 MATH 基准测试上的准确率会分别降至 49.5% 和 7.9%。这体现出模型数学能力的不稳定性问题。为了解决这一问题，研究团队采用了扩大有监督微调（SFT）数据集的方法，并发现随着 SFT 数据的增多，模型生成正确答案的可靠性被显著提升。

研究中还提到，通过使用合成数据，可以有效地扩大 SFT 数据集，而且这种方法几乎与真实数据一样有效。研究团队利用 GPT-4 Turbo API 生成了合成的数学问题与解题过程，并通过简单的验证提示词来确保问题的质量。通过这种方法，团队成功地将 SFT 数据集从 7.5K 扩展到约一百万样本，实现了近乎完美的缩放定律（Scaling Law）。最终获得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率，大幅超越此前的 SOTA 模型，甚至可超越一些 70B 量级模型，实现越级提升。而 Xwin-Math-70B 模型在 MATH 评测集上的结果可达 52.8%，显著超越了 GPT-4 的早期版本。这是基于 LLaMA 系列基础模型的研究第一次在 MATH 上超越 GPT-4。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

研究人员还定义了 Pass@N 和 PassRatio@N 评测指标，意图分别测评模型的 N 次输出中，是否能够输出正确答案（表示模型潜在的数学能力），以及正确答案的所占比例（表示模型数学能力的稳定性）。当 SFT 数据量较小时，模型的 Pass@256 已经很高，进一步扩大 SFT 数据规模后，模型的 Pass@256 提升极小，而 PassRatio@256 则获得显著增长。这表明基于合成数据的有监督微调是提升模型数学能力稳定性的有效方式。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

此外，研究还提供了对不同推理复杂性和错误类型下扩展行为的洞察。例如，随着 SFT 数据集规模的增加，模型在解决数学问题时的准确率遵循与推理步骤数量相关的幂律关系。通过增加训练样本中长推理步骤的比例，可以显著提高模型解决难题的准确率。同时，研究还发现，计算错误比推理错误更容易被缓解。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

在表现模型数学推理泛化能力的匈牙利高中数学考试中，Xwin-Math 也拿到了 65% 的分数，仅次于 GPT-4。这表明研究中合成数据的方式并没有显著地过拟合到评测集中，展现出良好的泛化能力。

LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力

这项研究不仅展示了合成数据在扩展 SFT 数据方面的有效性，而且为大型语言模型在数学推理能力方面的研究提供了新的视角。研究团队表示，他们的工作为未来在这一领域的探索和进步奠定了基础，并期待能够推动人工智能在数学问题解决方面取得更大的突破。随着人工智能技术的不断进步，我们有理由期待 AI 在数学领域的表现将更加出色，为人类解决复杂数学问题提供更多帮助。

文章还涉及数据合成方法的消融实验和其他评测指标的结果，详细内容请参阅全文。

以上是LLaMA-2-7B數學能力上限已達97.7%？ Xwin-Math利用合成資料解鎖潛力的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

4090生成器：与A100平台相比，token生成速度仅低于18%，上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行，并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快？在单个NVIDIARTX4090GPU上运行LLM，PowerInfer的平均token生成速率为13.20tokens/s，峰值为29.08tokens/s，仅比顶级服务器A100GPU低18%，可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT，比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型（LLM）充分发挥其能力，有效的prompt设计方案是必不可少的，为此甚至出现了promptengineering（提示工程）这一新兴领域。在各种prompt设计方案中，思维链（CoT）凭借其强大的推理能力吸引了许多研究者和用户的眼球，基于其改进的CoT-SC以及更进一步的思维树（ToT）也收获了大量关注。近日，苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法：思维图（GoT）。让思维从链到树到图，为LLM构建推理过程的能力不断得到提升，研究者也通

复旦NLP团队发布80页大模型Agent综述，一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期，复旦大学自然语言处理团队（FudanNLP）推出LLM-basedAgents综述论文，全文长达86页，共有600余篇参考文献！作者们从AIAgent的历史出发，全面梳理了基于大型语言模型的智能代理现状，包括：LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时，作者们探讨了Agent相关的前瞻开放问题，对于相关领域的未来发展趋势具有重要价值。论文链接：https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表：

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此，目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言（StructuredGenerationLanguage），称为SGLang，旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计，SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说，SGLang的

大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗，其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据，因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而，与传统软件知识产权保护不同，对预训练模型参数盗用的判断存在以下两个新问题：1）预训练模型的参数，尤其是千亿级别模型的参数，通常不会开源。预训练模型的输出和参数会受到后续处理步骤（如SFT、RLHF、continuepretraining等）的影响，这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布：实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级，推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本，作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通，持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念，采用开源方式对应用层、调度、通信、异构计算（算法）四个层面进行改造，实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管，IBM机器学习专用处理器NorthPole，能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展，其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间，因此能耗极高。在某些情况下，执行一些训练好的系统，智能手机就能轻松胜任。但是，执行的次数太多，能耗也会增加。幸运的是，有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算，以避免重复访问RAM。现在，IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念，并将其与一种非常精简的计算运行

制作莫比乌斯环，最少需要多长纸带？50年来的谜题被解开了Oct 07, 2023 pm 06:17 PM

自己动手做过莫比乌斯带吗？莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单，即使是小孩子也可以轻松完成。你只需要取一张纸带，扭曲一次，然后将两端粘在一起。然而，这样容易制作的莫比乌斯带却有着复杂的性质，长期吸引着数学家们的兴趣。最近，研究人员一直被一个看似简单的问题困扰着，那就是关于制作莫比乌斯带所需纸带的最短长度？布朗大学RichardEvanSchwartz谈到，对于莫比乌斯带来说，这个问题没有解决，因为它们是「嵌入的」而不是「浸入的」，这意味着它们不会相互渗透或自我

See all articles