搜索
首页科技周边人工智能Kimi K1.5与OpenAi O1:哪个更好的推理模型?

OpenAI是第一个引入O1和O1-Mini等推理模型的人,但这是游戏中唯一的玩家吗?不远射! DeepSeek,Qwen和现在的Kimi等中国LLM正在加紧挑战OpenAI,以更实惠的价格提供类似的能力。在DeepSeek令人印象深刻的首次亮相之后,Kimi Ai的新型Kimi K1.5型号轮到了。在本文中,我们将在同一任务上测试Kimi K1.5针对Openai O1,并查看哪个更好!

>

>目录的表

    >什么是kimi k1.5? Web搜索
  • 任务5:图像分析
  • 最终结果:kimi k1.5 vs openai o1
  • 结论
  • 请注意:
  • 请注意:Kimi K1.5是免费的,同时访问O1和O1-Mini的Chatgpt Plus的费用为20美元。在研究任务之前,让我们比较两种型号。
  • >
  • 什么是kimi k1.5?
  • Kimi K1.5是Moonshot AI的多模式LLM,接受了增强学习(RL)的训练,旨在在文本,视觉和编码的各种推理任务中表现出色。 Kimi K1.5最近推出,由于其令人印象深刻的性能而迅速引起了人们的关注,与OpenAI的O1型号的功能相匹配而没有预览或迷你后缀。
  • >
  • 键功能
  • >无限用法完全免费
跨100个网站的实时Web搜索

>可轻松分析多达50个文件(PDF,DOC,PPTS,图像) 高级COT推理,无需提供

增强的图像理解,超越基本文本提取

也阅读:

    openai o1:OpenAI的新型号系列
  • o1-mini:一种改变游戏的词干和推理模型
  • >
  • kimi k1.5 vs Openai O1和O1-Mini
  • Kimi K1.5在长期任务中匹配OpenAI的O1和O1-Mini,并且在短件任务中优于GPT-4O和Claude Sonnet 3.5。它的多模式功能,尤其是在视觉推理中,它将其作为OpenAI模型的强大竞争对手。 RL培训技术,多模式数据配方和基础设施优化的使用在实现这些结果方面一直是关键的。

    k1.5长期模型:推进多模式推理

    > kimi k1.5长距离模型通过长篇小说缩放,改进的策略优化方法和视觉文本增强学习(RL)的结合来实现最新的(SOTA)性能。与传统的语言模型预处理不同,该模型依赖于下一步的预测,并且受到可用培训数据的限制,Kimi K1.5利用RL通过学习奖励来探索探索的培训数据来扩展其培训数据。这种方法建立了一个简单而有效的RL框架,避免了诸如蒙特卡洛树搜索或价值功能之类的复杂技术。

    Kimi K1.5与OpenAi O1:哪个更好的推理模型?键基准强调了该模型的出色性能:

      >数学推理
    • :Math-500上的96.2和Aime 2024上的77.5分数,与OpenAI的O1和O1-Mini型号匹配。
    • 编程
    • :代码方面的第94个百分位数,在竞争性编程方面表现出色。
    • 视觉推理
    • :74.9在Mathvista上,展示了强大的多模式集成。
    • >该模型处理长篇小说任务(例如计划,反思和校正)的能力通过培训期间的部分推出,提高效率和性能。
    k1.5缩短型号:效率和性能

    使用有效的long2short方法将长密码模型的成功构建在长密度模型的成功基础上,以将长密度技术提炼成更有效的框架。这种方法结合了微调,增强学习和远程蒸馏,为短篇小说任务提供了快速而准确的推理。

    值得注意的成就包括:Kimi K1.5与OpenAi O1:哪个更好的推理模型?

    数学推理
      :在数学500上的94.6和Aime 2024上的60.8得分,表现优于现有的短型型号,例如GPT-4O和Claude Sonnet 3.5,最高可达550%。
    • 编程:47.3在LiveCodeBench上,在代码生成和调试任务方面出色。
    • 自然语言理解:对诸如聊天机器人和虚拟助手等实时应用程序有效。
    • >
    • >远程蒸馏技术,包括模型合并和最短拒绝采样,确保通过降低的计算成本来确保高性能,从而使短点模型高效。 要知道更多您可以在这里结帐他们的研究论文!
    • >
    现在,让我们在同一提示中评估Kimi K1.5和OpenAI O1!

    任务1:斑马拼图

    提示:

    >正确求解了这个斑马拼图。

    openai O1响应:

    收集器详细信息
    Collector Position Nationality Lot Amount Spent Shirt Color
    Collector #1 Portuguese Toy Unknown Blue
    Collector #2 Japanese Lot 40 0,000 Purple
    Collector #3 Italian Lot 30 0,000 Pink
    Collector #4 Canadian Unknown 0,000 Yellow
    Collector #5 Unknown Unknown 0,000 Unknown

    Kimi K1.5与OpenAi O1:哪个更好的推理模型?

    kimi k1.5响应:

    收集器详细信息
    Collector # Nationality Lot Item Amount Shirt Color
    1 Italian 30 Clock 0,000 Blue
    2 Japanese 40 Painting 0,000 Purple
    3 Canadian 10 Vase 0,000 Pink
    4 Portuguese 34 Toy 0,000 Yellow
    5 (Unknown)

    Kimi K1.5与OpenAi O1:哪个更好的推理模型?

    观察:

    Openai O1提供的响应明显不准确。结果表不符合问题中指定的所需格式,从而使回答不可靠。另一方面,Kimi K1.5根据问题提供了正确格式的响应,但答案本身的内容不正确。

    >

    >判决:

    >

    openai o1:❌| Kimi K1.5:❌

    >任务2:逻辑推理

    > 提示:>您走进房间看床。在床上有两只狗,四只猫,一只长颈鹿,五头牛和一只鸭子。还有三把椅子和一张桌子。地板上有几条腿? openai O1响应:

    kimi k1.5响应:Kimi K1.5与OpenAi O1:哪个更好的推理模型?

    观察:Kimi K1.5与OpenAi O1:哪个更好的推理模型?

    正确答案:

    > 22(2(人)4(表)4(bed)4(bed)12(3张椅子))

    openai O1花费了太长时间来产生响应。虽然计算正确并包括一个详细的解释,但它未能说明地板上的人腿,这使得其答案不正确。相比之下,Kimi K1.5在更少的时间内提供了正确的答案。>

    >判决:

    >

    openai o1:❌| Kimi K1.5:✅ >任务3:创建一个HTML站点

    >

    提示:

    >创建一个简单的html页面,其中使用一个按钮将背景颜色更改为粉红色时,用一些五彩纸屑

    将其更改为粉红色。 openai O1响应:

    kimi k1.5响应:

    观察:

    >

    >判决:

    >

    openai o1:❌| Kimi K1.5:✅ >任务4:Web搜索

    提示:

    >阅读文章 - https://www.analyticsvidhya.com/blog/2024/07/building-agentic-agentic-rag-systems-with-langgraph/,以了解构建wikipedia数据的矢量数据库的过程。以简洁的方式汇总关键步骤。

    openai O1响应: >构建wikipedia数据的矢量数据库的过程:

    1. >收集数据:从转储或API中获取Wikipedia文章。
    2. >
    3. >>预处理文本:清洁文本并将其分成较小的连贯的“块”。
    4. 选择一个嵌入模型:使用语言模型(例如OpenAI嵌入)将文本块转换为数值向量。
    5. 生成嵌入
    6. :对于每个块,产生其语义向量表示。 设置矢量数据库
    7. :选择一个矢量存储(例如Pinecone,Weaviate,Faiss,Chroma)以存储和索引嵌入。
    8. > >插入向量
    9. :将所有块向量和关联的元数据(例如,原始文章参考)加载到数据库中。>
    10. 测试检索:与矢量化问题查询数据库,以确保返回相关的wikipedia块。
    11. >
    12. 优化并集成:将索引和集成与检索效果生成(RAG)管道进行有效,准确的信息检索。
    13. kimi k1.5响应: >“具有Langgraph的构建代理抹布系统的综合指南”文章概述了为Wikipedia数据构建向量数据库的过程,这是创建代理抹布系统的一部分。这是总结的关键步骤:
      1. 安装依赖项:安装必要的库,例如Langchain,Langchain-Openai,Langchain-Community,Langgraph和Langchain-Chroma。
      2. >
      3. 输入API键:使用GetPass函数安全地输入OpenAI和Tavily搜索的API键,以避免在代码中公开它们。
      4. 设置环境变量
      5. :设置OpenAI和Tavily搜索API键的环境变量。 >
      6. >加载wikipedia data
      7. >从提供的Google Drive链接下载Wikipedia数据或使用本地存档文件。>
          >提取并将数据加载到文档列表中。
        块文档
      8. 使用文本分离器将文档分为较小,可管理的块。 >本文使用递归的术语textsplitter将文档分为大约2000个字符的块,重叠为300个字符。
          >
        • 创建矢量数据库
      9. >初始化一个色度矢量数据库客户端。 >使用OpenAI的嵌入模型(Text-Embedding-3-Small)将文档块转换为嵌入。
          >
        • >将文档块及其嵌入在矢量数据库索引中,将余弦相似性指定为距离函数。
        • 设置向量数据库回收
      10. >配置猎犬以基于余弦相似性获取前3个最相似的文档。 设置一个相似性阈值(例如,0.3),以过滤与查询不够相似的文档。
          >
        • 测试猎犬
      11. >用示例查询测试猎犬,以确保其返回相关文档。> 对于vector数据库中没有相关文档的查询,检索器应返回一个空列表。
        • 观察:
        Kimi K1.5的输出通过提供特定的技术参数和库要求提供详细的可行的实现步骤来表现出色。它与明确的组织之间的全面深度之间进行了平衡,解释了每个步骤背后的推理,并有效地将技术过程与建立代理抹布系统的更广泛目标联系起来。

      >判决:

      >

      openai o1:❌| Kimi K1.5:✅

      任务5:图像分析

      提示:

      >图像显示了空间中数据中心的高度简化示意图,其中一些简化的假设需要合理。

      >任务>估计数据中心所需的散热器表面积的下限。
      地址。
      地址如何在热管理的背景下处理太阳和深空。 >输入图像:

      Kimi K1.5与OpenAi O1:哪个更好的推理模型?

      openai O1响应:

      下面的

      是一个逐步推理过程,具有明确规定的简化假设,理由和热力学第一定律的应用。最终结果将是在散热器区域的下限,以消散由空间数据中心产生的1 gW的热量。

      关键假设和简化

      1。功率输入和热量产生:

      假设数据中心由1 GW太阳能电源提供动力。 GPU消耗的几乎所有电力都将转换为热量(在稳态下电能转换本质上是100%,因为所有未存储的电能最终都必须随热量消散)。因此,要去除的废热约为1 gW = 1×10^9 W.

      2。仅辐射传热:

      > 在太空中,没有对环境的对流或导电冷却,只有辐射传热。因此,热排斥的主要模式是从散热器表面进入深空的热辐射。

      3。发射率和吸收性:

      假设散热器是用高发射率构造的,例如ε= 0.9 ε = 0.9。这对于涂有某些高发射率的油漆或材料的表面是合理的。对于所需区域的下限,我们假设理想的条件:

      散热器主要远离太阳,以最大程度地减少太阳能吸收。

        kimi k1.5响应:
      • 为了估算太空中数据中心所需的散热器表面积的下限,我首先应用Stefan-Boltzmann定律,该法描述了表面辐射的功率:

      为了处理热管理中的太阳和深空,应使用阳光遮挡数据中心,或放在不暴露于阳光下的位置,例如行星或月球的阴暗面。必须设计散热器以有效地辐射热量进入空间的真空,这是非常冷的。 通过确保数据中心设备产生的热量等于散热器辐射的热量,热力学的第一定律适用于这种情况。该法律确保系统中的总能量保持恒定,并在散热器的设计中充分考虑了热量。

      >所需散热器表面积的下限大约为

      766平方米

      。数据中心应避免阳光直射,并应优化散热器,以在空间真空中进行散热以维持热平衡。

      观察:

      Kimi K1.5的响应是出色的,原因有几个。从基本的Stefan-Boltzmann法律方程开始,它通过分步方法来证明明确的数学推理。 Kimi清楚地定义了所有变量及其值,显示了解决散热器区域的数学过程,并提供了766平方米的具体数值结果。该解释包括有关热管理策略的明确理由,例如将散热器定位在地球的阴暗面,以及与现实世界应用的第一定律的直接联系。响应以特定数字和可行的建议结束。

      > 相比之下,Openai O1的响应仍然更加理论上,重点是一般假设和设置,而不是完成实际计算。它缺乏具体的数值解决方案,并且没有完全解决热管理方面,与Kimi K1.5的详细和以解决方案为导向的方法相比,它的实用性和行动性不佳。

      >判决:

      openai o1:❌| Kimi K1.5:✅

      最终结果:kimi k1.5 vs Openai O1

      >任务结果
      Task Winner
      Zebra Puzzle Neither
      Logical Reasoning Kimi k1.5
      Create an HTML Site Kimi k1.5
      Web Search Kimi k1.5
      Image Analysis Kimi k1.5
      也请阅读:Kimi K1.5 vs DeepSeek R1:最好的中国LLMS战役

      结论

      诸如Kimi K1.5和DeepSeek R1之类的免费模型正在挑战Openai O1的主导地位,无需免费提供推理,编码和多模式任务的卓越性能。随着Kimi K1.5在关键基准和DeepSeek R1方面的表现优于OpenAi,在编码挑战方面脱颖而出,为Openai O1支付20美元/月是否仍然是合理的?在下面的评论部分中让我们知道!

      >

      敬请期待分析vidhya博客,以获取更多如此出色的内容!

以上是Kimi K1.5与OpenAi O1:哪个更好的推理模型?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
从摩擦到流:AI如何重塑法律工作从摩擦到流:AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力,促使法律专业人员积极采用AI解决方案。 对于那些旨在保持竞争力的人来说,被动抵抗不再是可行的选择。 为什么技术采用至关重要? 法律专业人员

这就是AI对您的看法,对您的了解这就是AI对您的看法,对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的,与人类交流形成了鲜明的对比。 但是,AI在每次聊天期间都会积极介绍用户。 每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略,离不开强大的企业文化支撑。正如彼得·德鲁克所言,企业运作依赖于人,人工智能的成功也同样如此。 对于积极拥抱人工智能的组织而言,构建适应AI的企业文化至关重要,它甚至决定着AI战略的成败。 西蒙诺咨询公司(West Monroe)近期发布了构建蓬勃发展的AI友好型企业文化的实用指南,以下是一些关键要点: 1. 明确AI的成功模式: 首先,要对AI如何赋能业务有清晰的愿景。理想的AI运作文化,能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务,而人类则擅长创造力、判

Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用,可穿戴式AI时代来临!这款旨在与ChatGPT竞争的应用,提供文本、语音交互、图像生成和网络搜索等标准AI功能,但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时,知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息,提供最新的情境信息,这在以前是无法实现的。该应用还支持实时翻译,这彻底改变了Ray-Ban眼镜上的AI体验,使其实用性大大提升。 对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施,这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域,这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏,其规模前所未有。据报道,87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。 那么,我们该如何避免成为这波智能犯罪的受害者呢?让我们探讨如何在个人和组织层面识别风险并采取防护措施。 网络罪犯如何利用人工智能 随着技术的进步,犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面,但其潜在危害是前所未有的。 特别是,人工智

共生舞蹈:人工和自然感知的循环共生舞蹈:人工和自然感知的循环May 09, 2025 am 11:13 AM

最好将人工智能(AI)与人类智力(NI)之间的复杂关系理解为反馈循环。 人类创建AI,对人类活动产生的数据进行培训,以增强或复制人类能力。 这个AI

AI最大的秘密 - 创作者不了解,专家分裂AI最大的秘密 - 创作者不了解,专家分裂May 09, 2025 am 11:09 AM

Anthropic最近的声明强调了关于尖端AI模型缺乏了解,引发了专家之间的激烈辩论。 这是一个真正的技术危机,还是仅仅是通往更秘密的道路上的临时障碍

Sarvam AI的Bulbul-V2:印度最佳TTS模型Sarvam AI的Bulbul-V2:印度最佳TTS模型May 09, 2025 am 10:52 AM

印度是一个多元化的国家,具有丰富的语言,使整个地区的无缝沟通成为持续的挑战。但是,Sarvam的Bulbul-V2正在帮助弥合其高级文本到语音(TTS)T

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!