OpenAI的O1型号于2024年9月发布,通过大规模的增强学习展示了“高级推理”功能。 AI研究实验室DeepSeek已成功复制了这种行为,并公开发表了他们的方法。本文探讨了这一突破的核心概念和基本机制。
>>OpenAI的O1模型通过引入“思考”代币彻底改变了大型语言模型(LLM)培训。这些特殊的令牌充当了刮擦板,允许模型系统地处理问题和用户查询。 一个关键发现是通过增加测试时间计算的性能提高 - 产生的代币等同于更好的响应。 以下图(来自Openai的博客)说明了以下内容:
左图显示了既定的神经缩放法则,其中较长的训练(火车时间计算)可改善性能。正确的图揭示了一种新颖的缩放定律:推理期间的令牌产生增加(测试时间计算)可以增强性能。
思考令牌 O1的“思考”代币划分了模型的思想链(COT)推理。 它们的重要性是双重的:他们清楚地描绘了UI开发的推理过程,并提供了模型思维过程的可读记录。虽然Openai将培训细节保密,但DeepSeek的研究阐明了这一点。
> DeepSeek的研究
DeepSeek的2025年1月的出版物:“ DeepSeek-R1:通过增强学习激励LLMS中的推理能力
” [2],揭示了O1模型的秘密。他们引入了DeepSeek-R1-Zero(仅在增强学习方面接受培训)和DeepSeek-R1(由监督微调(SFT)和RL的混合物)。 R1-Zero至关重要,因为它为R1生成了培训数据,并证明未明确编程的紧急推理能力。 R1-Zero发现COT和测试时间计算单独通过RL缩放。
> deepSeek-r1-Zero(仅Rl)
一个简单的模板使用 > 奖励信号:基于规则的系统评估准确性和格式,避免了可能与神经奖励模型相关的潜在“奖励黑客入侵”问题。
grpo(小组相对策略优化):
>
>非常明显的是,R1-Zero隐式学会通过测试时间计算来改善响应,并表现出类似人类的内部独白,通常包括验证步骤。 原始文章中提供了一个示例。
> DeepSeek-R1通过组合SFT和RL的四步训练过程解决R1-Zero的可读性问题
带有推理数据的SFT
sft: sft具有推理和非争议数据,以扩大模型的功能。 rl rlHf:最终的RL培训包括推理培训和RLHF,以提高帮助和无害性。 >访问R1-Zero和R1 结论 O1引入了测试时间计算,作为LLM改进的新维度。 DeepSeek的复制和公开出版物表明,强化学习可以独立地产生超过现有人类知识限制的模型。这为未来的科学和技术进步打开了令人兴奋的可能性。
[注意:标签来构建模型的响应:
<think></think>
最小的提示避免了偏见的反应,并允许在RL期间自然演变。<answer></answer>
SFT:
以上是如何训练LLM'思考”(O1&DeepSeek-R1)的详细内容。更多信息请关注PHP中文网其他相关文章!