搜索
首页科技周边人工智能Openai O1:一种在回答问题之前'思考”的新模型

你听到了大新闻吗? Openai刚刚推出了一系列新型AI模型的预览 - OpenAi O1 (也称为草莓/Q*)。这些模型很特别,因为它们在给您答案之前花费更多的时间“思考”。这意味着与早期模型相比,他们更好地解决了科学,编码和数学等领域的真正棘手问题,这在很大程度上要归功于先进的OpenAI O1参数

Openai以O1系列的方式将座右铭“思考”以“思考”

概述

  • Openai的新O1模型系列在数学,科学和编码方面的棘手问题上表现出色,使以前的版本超出了以前的版本。
  • O1概览模型可以解决高级任务,解决了93%的AIME数学问题并超过了科学基准的人类专家。这些成功的大部分取决于如何有效地设置OpenAI O1参数来处理复杂的任务。
  • Openai的O1-Mini以80%的成本提供了强大的编码功能,使其成为开发人员的可访问工具。
  • 通过改进的安全措施,O1模型确保了负责的AI使用,同时为研究人员,开发人员和教育者提供了增强的问题。

目录

  • 有什么大不了的?
  • Openai O1的用例
  • 令人印象深刻的测试结果
    • 高级数学比赛
    • 科学专业知识
    • 编码
    • 其他基准和视觉理解
  • 认识O1-Mini
  • 使用O1 mini的数学
  • 谁可以使用O1-preiview?
  • 如何访问O1-preview?
  • 安全也很重要
  • 接下来是什么?
  • 最后的想法

有什么大不了的?

O1-preiview模型经过训练,可以退后一步,并真正思考事物,就像面临棘手的问题时人类一样。他们考虑了不同的方法,完善自己的想法,甚至在此过程中遇到自己的错误。这种更深层次的思维水平使他们能够解决旧模型无法应付的问题。

Openai O1的用例

用Openai O1编码

用Openai O1编写难题

HTML蛇与Openai O1

令人印象深刻的测试结果

要查看与较早的GPT-4O模型相比,O1的更好,OpenAI使他们通过一系列艰难的测试,包括人类考试和机器学习基准。猜猜是什么? O1在大多数这些推理的任务中的表现都优于GPT-4O!

让我们分解一些结果:

高级数学比赛

他们在AIME(美国邀请赛数学考试)上测试了模型,这是美国顶尖学生的超级挑战性数学考试

  • GPT-4O :解决了大约12%的问题(大约15个问题中的1.8个)。
  • Openai O1 :每次尝试仅一尝试就解决了74% (大约15个中的11.1)。当他们让模型多次尝试并取出最常见的答案时,它得分为83% 。使用更高级的方法,它达到了93% ,解决了15个问题中约13.9个!

综上所述,在全国500名学生中,将获得13.9的成绩,超过美国数学奥林匹克运动会的临界。那是一些严重的脑力!

科学专业知识

他们还评估了O1在GPQA-Diamond上的O1,这是一种艰难的基准测试,可测试化学,物理学和生物学方面的知识。 Openai甚至引进了博士学位的专家来回答这些问题。

  • 结果:O1优于这些人类专家,成为第一个在此基准下这样做的AI模型!这表明O1可以在很高的水平上解决复杂的科学问题。

编码

在诸如CodeForces之类的编码竞赛中,新模型达到了第89个百分位,表明它们可以轻松生成和调试复杂的代码。

Openai O1:一种在回答问题之前'思考”的新模型

其他基准和视觉理解

但这不是全部! O1模型还显示了其他领域的显着改善:

了解视觉信息(视觉感知)

O1模型现在可以解释和理解图像 - 一种称为视觉感知的功能。这意味着它可以分析视觉数据并回答有关它的问题,这对于AI来说是一大步。

医学成像测试(MMMU基准)

Openai在一个名为MMMU的具有挑战性的基准上测试了O1(该基准(该基准)代表了多模式的医疗机器理解)。该测试评估了AI可以理解医学图像并进行准确评估的程度,类似于医疗专业人员执行的任务。

结果:O1在此测试中得分78.2% ,这使其成为第一个以与人类医学成像专家相当的水平执行的AI模型。这很大,因为理解和解释医学图像需要深厚的知识和精度。

广泛的知识(MMLU基准)

还对O1模型进行了测试,该模型在MMLU(大量的多任务语言理解)基准上进行了测试,该基准涵盖了57个不同的主题,从历史和文学到数学和计算机科学。

结果:O1在57名受试者中有54位优于GPT-4O!这表明O1不仅在一个领域中专业,还表明了广泛主题的理解得到了提高。

Openai O1:一种在回答问题之前'思考”的新模型

用更简单的话来说,O1能够同时了解文本和图像的能力意味着它变得更加通用和有能力。无论是分析复杂的医学图像,解决高级数学问题还是在各种主题上回答问题,O1都为AI做些什么制定了新的标准。

认识O1-Mini

Openai还推出了O1-Mini ,这是O1-Preigiew模型的较小,更快,更实惠的版本,特别擅长编码任务。它便宜80% ,这是对于需要强大推理能力的开发人员而无需破坏银行的开发人员的绝佳选择。

我们还发布了Openai O1-Mini,这是一种具有成本效益的推理模型,在STEM上表现出色,尤其是数学和编码。

- 2024年9月12日Openai(@Openai)

使用O1 mini的数学

另请阅读:Openai的O1-Mini:具有成本效益推理的STEM的改变游戏规则的模型

谁可以使用O1-preiview?

这些新型号是针对任何处理复杂问题的人的游戏规则改变者:

  • 研究人员和科学家:它们可以帮助注释细胞测序数据或在量子物理等领域中产生所需的复杂公式。
  • 开发人员:构建和执行多步骤工作流变得更加容易,更高效。
  • 学生和教育工作者:他们提供了一种探索数学和科学中具有挑战性概念的新方法。

如何访问O1-preview?

Chatgpt Plus和团队用户:您可以从今天开始访问ChatGPT中的O1-preview和O1-Mini模型。只需从模型选择器中选择它们即可。目前有每周的消息限制(O1-preiview的30条消息,O1-Mini的50条消息),但Openai正在努力尽快增加这些限制。

Openai O1:一种在回答问题之前'思考”的新模型

  • CHATGPT Enterprise和EDU用户:从下周开始,您将可以访问这两种型号。
  • 开发人员:如果您处于API使用层5,则可以立即通过API开始尝试这些模型。某些功能诸如函数调用和流媒体之类的功能尚不可用,但是它们正在路上。
  • chatgpt免费用户:好消息! OpenAI计划使所有自由用户都可以使用O1-Mini。

安全也很重要

Openai还通过这些型号提高了安全功能。他们已经接受了培训,以更好地理解和遵循安全指南,通过对对话期间的规则进行推理。这意味着他们不太可能被欺骗去做他们不应该做的事情(您可能听说过“越狱”的AI模型)。

在艰难的安全测试中,O1-preview模型得分为100分,而GPT-4O的得分为22 。这是一个重大的改进,表明他们倾向在安全和适当的界限范围内更好。

Openai与美国和英国的安全组织紧密合作,他们甚至鉴于这些机构的早期访问模型,以帮助研究并确保一切都达到标准。

接下来是什么?

这只是开始。 Openai正在计划对这些模型进行定期更新和改进。他们正在寻找添加诸如浏览网络,上传文件和图像之类的功能,以及更多的功能,以使它们更有帮助。

他们还继续在GPT系列中与这个新的O1系列一起开发模型,因此有很多期待。

最后的想法

在AI世界中,O1-preview和O1-Mini模型的推出是一件大事。它们代表了AI如何通过复杂问题推理的重要一步。通过更好的性能和增强的安全措施,这些模型将成为许多从事挑战任务的人的游戏改变者。

请继续关注Analytics Vidhya博客,以了解有关O1和O1 Mini的用途的更多信息!

以上是Openai O1:一种在回答问题之前'思考”的新模型的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用代理抹布构建智能常见问题解答聊天机器人如何使用代理抹布构建智能常见问题解答聊天机器人May 07, 2025 am 11:28 AM

人工智能代理人现在是企业大小的一部分。从医院的填写表格到检查法律文件到分析录像带和处理客户支持 - 我们拥有各种任务的AI代理。伴侣

从恐慌到权力:领导者在AI时代必须学到什么从恐慌到权力:领导者在AI时代必须学到什么May 07, 2025 am 11:26 AM

生活是美好的。 也可以预见的是,您的分析思维更喜欢它的方式。您今天只开会进入办公室,完成一些最后一刻的文书工作。之后,您要带您的伴侣和孩子们度过当之无愧的假期去阳光

为什么预测AGI将超过AI专家的科学共识的原因为什么为什么预测AGI将超过AI专家的科学共识的原因为什么May 07, 2025 am 11:24 AM

但是,科学共识具有打ic和陷阱,也许是通过使用融合的实验,也称为合奏,也许是一种更谨慎的方法。 让我们来谈谈。 对创新AI突破的这种分析是我的一部分

工作室吉卜力的困境 - 生成AI时代的版权工作室吉卜力的困境 - 生成AI时代的版权May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都没有回应此故事的评论请求。但是他们的沉默反映了创造性经济中更广泛,更复杂的紧张局势:版权在生成AI时代应该如何运作? 使用类似的工具

mulesoft为镀锌代理AI连接制定混合mulesoft为镀锌代理AI连接制定混合May 07, 2025 am 11:18 AM

混凝土和软件都可以在需要的情况下镀锌以良好的性能。两者都可以接受压力测试,两者都可以随着时间的流逝而遭受裂缝和裂缝,两者都可以分解并重构为“新建”,两种功能的产生

据报道,Openai达成了30亿美元的交易来购买Windsurf据报道,Openai达成了30亿美元的交易来购买WindsurfMay 07, 2025 am 11:16 AM

但是,许多报告都在非常表面的水平上停止。 如果您想弄清楚帆冲浪的全部内容,您可能会或可能不会从显示在Google搜索引擎顶部出现的联合内容中得到想要的东西

对所有美国孩子的强制性AI教育? 250多个首席执行官说是对所有美国孩子的强制性AI教育? 250多个首席执行官说是May 07, 2025 am 11:15 AM

关键事实 签署公开信的领导者包括Adobe,Accenture,AMD,American Airlines,Blue Origin,Cognizant,Dell,Dellbox,IBM,LinkedIn,Lyftin,Lyft,Microsoft,Microsoft,Salesforce,Uber,Uber,Yahoo和Zoom)等高调公司的首席执行官。

我们自满的危机:导航AI欺骗我们自满的危机:导航AI欺骗May 07, 2025 am 11:09 AM

这种情况不再是投机小说。在一项受控的实验中,阿波罗研究表明,GPT-4执行非法内幕交易计划,然后向研究人员撒谎。这一集生动地提醒了两条曲线

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器