OpenAI是第一个引入O1和O1-Mini等推理模型的人,但这是游戏中唯一的玩家吗?不远射! DeepSeek,Qwen和现在的Kimi等中国LLM正在加紧挑战OpenAI,以更实惠的价格提供类似的能力。在DeepSeek令人印象深刻的首次亮相之后,Kimi Ai的新型Kimi K1.5型号轮到了。在本文中,我们将在同一任务上测试Kimi K1.5针对Openai O1,并查看哪个更好!
>
>目录的表>可轻松分析多达50个文件(PDF,DOC,PPTS,图像) 高级COT推理,无需提供
也阅读:
键基准强调了该模型的出色性能:
使用有效的long2short方法将长密码模型的成功构建在长密度模型的成功基础上,以将长密度技术提炼成更有效的框架。这种方法结合了微调,增强学习和远程蒸馏,为短篇小说任务提供了快速而准确的推理。
值得注意的成就包括:
任务1:斑马拼图
提示:>正确求解了这个斑马拼图。
Collector Position | Nationality | Lot | Amount Spent | Shirt Color |
---|---|---|---|---|
Collector #1 | Portuguese | Toy | Unknown | Blue |
Collector #2 | Japanese | Lot 40 | 0,000 | Purple |
Collector #3 | Italian | Lot 30 | 0,000 | Pink |
Collector #4 | Canadian | Unknown | 0,000 | Yellow |
Collector #5 | Unknown | Unknown | 0,000 | Unknown |
Collector # | Nationality | Lot | Item | Amount | Shirt Color |
---|---|---|---|---|---|
1 | Italian | 30 | Clock | 0,000 | Blue |
2 | Japanese | 40 | Painting | 0,000 | Purple |
3 | Canadian | 10 | Vase | 0,000 | Pink |
4 | Portuguese | 34 | Toy | 0,000 | Yellow |
5 | (Unknown) |
Openai O1提供的响应明显不准确。结果表不符合问题中指定的所需格式,从而使回答不可靠。另一方面,Kimi K1.5根据问题提供了正确格式的响应,但答案本身的内容不正确。
>>判决:
>openai o1:❌| Kimi K1.5:❌
> 提示:
kimi k1.5响应:
观察:
openai O1花费了太长时间来产生响应。虽然计算正确并包括一个详细的解释,但它未能说明地板上的人腿,这使得其答案不正确。相比之下,Kimi K1.5在更少的时间内提供了正确的答案。>
>判决:>openai o1:❌| Kimi K1.5:✅ >任务3:创建一个HTML站点
>
提示:>创建一个简单的html页面,其中使用一个按钮将背景颜色更改为粉红色时,用一些五彩纸屑将其更改为粉红色。 openai O1响应:
openai o1:❌| Kimi K1.5:✅ >任务4:Web搜索
提示:>阅读文章 - https://www.analyticsvidhya.com/blog/2024/07/building-agentic-agentic-rag-systems-with-langgraph/,以了解构建wikipedia数据的矢量数据库的过程。以简洁的方式汇总关键步骤。openai O1响应:
>构建wikipedia数据的矢量数据库的过程: >
任务5:图像分析
提示: >任务:>估计数据中心所需的散热器表面积的下限。 是一个逐步推理过程,具有明确规定的简化假设,理由和热力学第一定律的应用。最终结果将是在散热器区域的下限,以消散由空间数据中心产生的1 gW的热量。
1。功率输入和热量产生:
>
在太空中,没有对环境的对流或导电冷却,只有辐射传热。因此,热排斥的主要模式是从散热器表面进入深空的热辐射。
3。发射率和吸收性:
假设散热器是用高发射率构造的,例如ε= 0.9
散热器主要远离太阳,以最大程度地减少太阳能吸收。
>所需散热器表面积的下限大约为 。数据中心应避免阳光直射,并应优化散热器,以在空间真空中进行散热以维持热平衡。 Kimi K1.5的响应是出色的,原因有几个。从基本的Stefan-Boltzmann法律方程开始,它通过分步方法来证明明确的数学推理。 Kimi清楚地定义了所有变量及其值,显示了解决散热器区域的数学过程,并提供了766平方米的具体数值结果。该解释包括有关热管理策略的明确理由,例如将散热器定位在地球的阴暗面,以及与现实世界应用的第一定律的直接联系。响应以特定数字和可行的建议结束。 >判决: 最终结果:kimi k1.5 vs Openai O1 结论 敬请期待分析vidhya博客,以获取更多如此出色的内容!
>提取并将数据加载到文档列表中。
块文档>
:
>
:
>
:
Kimi K1.5的输出通过提供特定的技术参数和库要求提供详细的可行的实现步骤来表现出色。它与明确的组织之间的全面深度之间进行了平衡,解释了每个步骤背后的推理,并有效地将技术过程与建立代理抹布系统的更广泛目标联系起来。>判决:
>图像显示了空间中数据中心的高度简化示意图,其中一些简化的假设需要合理。
地址。
地址如何在热管理的背景下处理太阳和深空。
>输入图像:
openai O1响应:
下面的
kimi k1.5响应:
为了处理热管理中的太阳和深空,应使用阳光遮挡数据中心,或放在不暴露于阳光下的位置,例如行星或月球的阴暗面。必须设计散热器以有效地辐射热量进入空间的真空,这是非常冷的。
通过确保数据中心设备产生的热量等于散热器辐射的热量,热力学的第一定律适用于这种情况。该法律确保系统中的总能量保持恒定,并在散热器的设计中充分考虑了热量。
观察:
openai o1:❌| Kimi K1.5:✅
>任务结果
也请阅读:Kimi K1.5 vs DeepSeek R1:最好的中国LLMS战役
Task
Winner
Zebra Puzzle
Neither
Logical Reasoning
Kimi k1.5
Create an HTML Site
Kimi k1.5
Web Search
Kimi k1.5
Image Analysis
Kimi k1.5
诸如Kimi K1.5和DeepSeek R1之类的免费模型正在挑战Openai O1的主导地位,无需免费提供推理,编码和多模式任务的卓越性能。随着Kimi K1.5在关键基准和DeepSeek R1方面的表现优于OpenAi,在编码挑战方面脱颖而出,为Openai O1支付20美元/月是否仍然是合理的?在下面的评论部分中让我们知道!
>
以上是Kimi K1.5与OpenAi O1:哪个更好的推理模型?的详细内容。更多信息请关注PHP中文网其他相关文章!