首页 >科技周边 >人工智能 >在DeepSeek之后,Kimi K1.5击败Openai O1

在DeepSeek之后,Kimi K1.5击败Openai O1

Christopher Nolan
Christopher Nolan原创
2025-03-07 11:34:09242浏览

kimi k1.5:一种生成的AI推理模型,重塑了景观

最近的增强学习(RL)和大语言模型(LLM)的突破已经达到了创建Kimi K1.5的最终突破,这是一种准备彻底改变生成AI推理的模型。 本文深入研究了Kimi K1.5的主要特征,创新和潜在影响,从随附的研究中获得见解。 目录的

表:

什么是kimi k1.5?
  • kimi k1.5培训
  • kimi k1.5基准
  • kimi k1.5的关键创新
  • kimi k1.5 vs. deepseek r1
  • >通过API
  • 访问Kimi K1.5
  • 结论
什么是kimi k1.5?

kimi k1.5代表了用LLM缩放RL的实质性飞跃。与依靠复杂方法(例如蒙特卡洛树搜索)等传统模型不同,它采用了以自动回归预测和RL技术为中心的简化方法。 它的设计使其能够处理多模式任务,在Math Vista和Live Code -Bench等基准中展示出色的性能。>

Kimi K1.5的培训是一个多阶段的过程,旨在通过RL和多模式集成来增强推理:

预处理:该模型是在庞大的高质量多模式数据集中鉴定的,包括文本(英语,中文,代码,数学,数学,通用知识)和视觉数据,并严格过滤有关相关性和多样性。

  1. 有监督的微调(SFT):

    这涉及两个阶段:Vanilla SFT在各种任务中使用约100万个示例,以及长期链(COT)SFT来培训复杂的推理。

  2. 增强学习(RL):经过精心策划的提示集驱动RL培训。 该模型学会通过一系列推理步骤生成解决方案,并在评估响应准确性的奖励模型的指导下。 在线镜下降优化了策略。
  3. 局部推广:
  4. >有效处理长上下文,kimi k1.5使用部分推出,保存未完成的部分以供以后继续。
  5. 长度惩罚和抽样:

    长度惩罚鼓励简洁的答案,而课程和优先采样策略将重点放在更轻松的任务上。
  6. >>评估与迭代:

    针对基准测试的连续评估指导迭代模型更新。
  7. kimi k1.5系统概述和部分推出图:

kimi k1.5展示了各种任务的最先进的表现:

  • 数学:在AIME 2024上获得了77.5的完美分数,超过Openai O1(74.4)和Openai O1 Mini(63.6)。 在Math-500上得分96.2。
  • 编码:>在CodeForces上达到94分,匹配OpenAi O1并超过O1-Mini和QWQ 72B Preview。
  • 视觉推理:
  • 在MathVista_test上得分74.9,超过QVQ 72B(71.4)和Openai O1-Mini(71)。
  • 经常知识:
  • 在mmlu(em)上得分为87.4,表现优于OpenAi 4o(87.2)。
  • 推理策略图:

kimi k1.5关键创新After DeepSeek, Kimi k1.5 Outshines OpenAI o1

>

>

长上下文缩放:
    处理多达128,000个令牌,通过部分推出来提高效率。
  • 思维推理链:
  • 结合了适应性的长长和简短的COT策略。
  • >加固学习管道:一条精致的RL管道,带有精心策划的提示,监督微调和策略优化。
  • >
  • 多模式数据处理:有效地处理文本和视觉数据。
  • kimi k1.5 vs. deepseek r1
  • > Kimi K1.5和DeepSeek R1代表LLM开发的不同方法。 Kimi K1.5的简化架构,集成的RL和长篇小说处理将其与DeepSeek R1更传统的方法区分开。 差异会影响其在复杂的,上下文重重的任务上的表现。

>通过API

访问Kimi K1.5 API访问需要注册Kimi的管理控制台。 一个示例Python代码段演示了API交互:>

结论 Kimi K1.5代表生成AI推理的显着进步,在实现最新结果的同时简化了RL设计。 它在上下文缩放和多模式数据处理位置上的创新是一个领先的模型,具有各个行业的广泛含义。

以上是在DeepSeek之后,Kimi K1.5击败Openai O1的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn