O1-Mini：一种改变游戏规则的STEM和推理模型-人工智能-PHP中文网

首页

科技周边

人工智能

O1-Mini：一种改变游戏规则的STEM和推理模型

尊渡假赌尊渡假赌尊渡假赌

Apr 13, 2025 am 09:55 AM

OpenAI引入了O1-Mini，这是一种具有成本效益的推理模型，重点是STEM受试者。该模型在数学和编码中表现出令人印象深刻的性能，与其前身OpenAI O1非常相似，以各种评估基准。 OpenAI预计，O1-Mini将作为要求推理能力的应用程序的迅速而经济的解决方案，而无需全球知识。O1-Mini的推出目标是5级API用户，与OpenAI O1-Preview相比，成本降低了80％。让我们更深入地了解O1 Mini的工作。

概述

Openai的O1-Mini是一种经济高效的STEM推理模型，表现优于其同龄人。
专业培训使O1-Mini成为STEM的专家，在数学和编码方面表现出色。
人类评估展示了O1-Mini在推理方面的优势，而不是GPT-4O。
安全措施可确保O1-Mini的负责任使用，并增强越狱的鲁棒性。
Openai对O1-Mini的创新提供了可靠且透明的STEM工具。

O1-Mini与其他LLM

LLM通常在大型文本数据集上进行预训练。但这是捕获；尽管他们拥有如此广泛的知识，但有时可能会有些负担。您会看到，所有这些信息使它们在现实世界中的情况下有点慢且昂贵。

将O1米尼与其他LLM分开的事实是，它接受了STEM的训练。这种专门的培训使O1-Mini成为与STEM相关的任务专家。该模型有效且具有成本效益，非常适合STEM应用。它的性能令人印象深刻，尤其是在数学和编码方面。 O1-Mini是针对茎推理的速度和准确性进行了优化的。对于研究人员和教育者来说，这是一个有价值的工具。

O1-Mini在智能和推理基准方面表现出色，表现优于O1-preiview和O1，但在非茎事实知识任务中挣扎。

O1-Mini：一种改变游戏规则的STEM和推理模型

另请阅读：O1：Openai的新模型，该模型在回答棘手的问题之前“思考”

GPT 4O与O1 vs O1 Mini

在单词推理问题上的响应比较突出了性能差异。虽然GPT-4O挣扎，但O1-Mini和O1-preiview表现出色，提供了准确的答案。值得注意的是，O1-Mini的速度非常出色，回答的速度约为3-5倍。

如何使用O1-Mini？

O1-Mini：一种改变游戏规则的STEM和推理模型

Chatgpt Plus和团队用户：今天从模型选择器中访问O1-Mini，每周限制50条消息。
CHATGPT企业和教育用户：两种型号的访问将于下周开始。
开发人员：API Tier 5用户今天可以尝试这些模型，但是尚不可用功能呼叫和流式的功能。
免费用户：O1-Mini将很快提供给所有免费用户。

O1-Mini的出色表现：数学，编码及其他

Openai O1-Mini模型已在各种比赛和基准测试中进行了测试，其性能令人印象深刻。让我们一一看一下不同的组件：

数学

在高中AIME数学比赛中，O1-Mini的得分为70.0％，与更昂贵的O1型号（74.4％）相当，并且明显优于O1-Preview（44.6％）。该分数将O1-Mini置于美国500名高中学生中，这是一项了不起的成就。

编码

继续进行编码，O1米尼在CodeForces竞赛网站上发挥了1650分的ELO分数。该分数与O1（1673）具有竞争力，并且超过O1-Preview（1258）。这将O1-Mini置于在CodeForces平台上竞争的第86个百分位数。此外，O1-Mini在人道编码的基准和高中网络安全捕获范围挑战（CTF）上表现良好，进一步巩固了其编码能力。

O1-Mini：一种改变游戏规则的STEM和推理模型

干

O1-Mini已证明其在需要强大推理技能的各种学术基准中。在GPQA（Science）和Math-500等基准测试中，O1-Mini的表现优于GPT-4O，展示了其在与STEM相关的任务方面的卓越表现。但是，当涉及需要更广泛知识的任务时，例如MMLU，O1-Mini可能不如GPT-4O的性能。这是因为O1-Mini是针对STEM推理进行了优化的，并且可能缺乏GPT-4O拥有的广泛世界知识。

O1-Mini：一种改变游戏规则的STEM和推理模型

人类偏好评估

人类评估者在各个领域的挑战提示中积极比较了O1-Mini与GPT-4O的表现。结果表明，在较重的推理领域中对O1-Mini的偏爱，但GPT-4O领导着以语言为中心的领域，突出了模型在不同情况下的优势。

O1-Mini：一种改变游戏规则的STEM和推理模型

O1米尼的安全组件

O1-MINI模型的安全性和对齐方式对于确保其负责任和道德使用至关重要。这是对实施安全措施的解释：

训练技术： O1-Mini的训练方法反映了其前身O1-preiview的侧重于对齐和安全。该策略确保模型的产出与人类价值观保持一致，并减轻潜在风险，这是其发展的关键方面。
越狱鲁棒性： O1-Mini的主要安全特征之一是增强的越狱鲁棒性。在内部版本的StrongRepent数据集中，与GPT-4O相比，O1-Mini显示出越狱的鲁棒性59％。越狱的鲁棒性是指该模型抵制操纵或滥用其产出的尝试的能力，以确保其与预期目的保持一致。
安全评估：在部署O1米尼之前，进行了彻底的安全评估。该评估遵循与O1审查相同的方法，其中包括准备措施，外部红线和全面的安全评估。外部红色团队涉及吸引独立专家以确定潜在的漏洞和安全风险。
详细的结果：这些安全评估的结果发表在随附的系统卡中。这种透明度使用户和研究人员能够了解该模型的安全措施，并就其使用情况做出明智的决定。该系统卡提供了有关模型的性能，限制和潜在风险的见解，从而确保负责任的部署和使用。