AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:10 PM

aiopenaimit

高数考不好，不知道是多少人的噩梦。

如果说你高数考得还不如AI好，是不是就更难以接受了？

没错，来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%，妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

△“仅”得81分，对AI的期待也太高了吧

现在，谷歌那边又传来了最新大消息：

不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！

看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家，参加了四门考试。

数学竞赛考试MATH，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们，以前最好成绩只有6.9分……

但这一次，谷歌新AI却刷到了50分，比计算机博士还高。

综合考试MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，谷歌AI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了20分左右。

小学数学题GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新AI也能在200多道题中，答出将近三分之一。

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，谷歌AI这一次，走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

那么，这是怎么做到的？

AI狂读arXiv上200万篇论文

新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。

而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练，新增的数据集有三部分：

主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留，和纯文本一样走一遍Transformer的训练程序，让AI像理解语言一样去理解符号。

与之前的语言模型相比，这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比，Minerva的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现AI用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了AI的推理阶段，Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示，今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法，让AI把分步计算的中间结果临时存储起来。

最后还有Majority Voting多数表决方法，也是今年3月才发表的。

让AI多次回答同一个题目，选择答案中出现频率最高的。

所有这些技巧全用上以后，5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva，在竞赛级数学题和MIT公开课问题中，也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多，Minerva具体都能做出哪些题目？

对此谷歌也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva可以像人类一样按步骤计算数值，而不是直接暴力求解。

对于应用题，可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上，Minerva可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

生物和化学上，Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响？

以下哪种是放射性元素？

以及天文学：为什么地球拥有很强的磁场？

在机器学习方面，它通过解释“分布外样本检测”的具体含义，从而正确了给出这个名词的另一种说法。

……

不过，Minerva有时也会犯一些低级错误，比如把等式两边的√给消了。

除此之外，Minerva会出现的推理过程错误但结果对的“假阳性”情况，比如下面这种，有8%的可能性。

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看，Minerva的表现让很多人感到惊艳，纷纷在评论区求API（可惜谷歌目前并没有公开计划）。

有的网友想到，加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法，它的准确率或许还可以再提高？

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带4个例子的少样本学习。

还有网友提出，既然它可以做题，那么能不能反过来出题？

事实上用AI给大学生出题这件事，MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是AI出的。

总之现在的情况，除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

论文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址：https://minerva-demo.github.io/

相关论文：Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

参考链接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

以上是AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Gemma范围：Google＆＃039;用于凝视AI的显微镜

Gemma范围：Google＆＃039;用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包，为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位？

谁是商业智能分析师以及如何成为一位？Apr 17, 2025 am 11:44 AM

解锁业务成功：成为商业智能分析师的指南想象一下，将原始数据转换为驱动组织增长的可行见解。这是商业智能（BI）分析师的力量 - 在GU中的关键作用

如何在SQL中添加列？ - 分析Vidhya

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师

业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍想象一个繁华的办公室，两名专业人员在一个关键项目中合作。业务分析师专注于公司的目标，确定改进领域，并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta？ - 分析Vidhya

什么是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析：COUNT 和 COUNTA 函数详解精确的数据计数和分析在 Excel 中至关重要，尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的，其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格，但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节，突出它们独特的特性和区别，并学习如何在数据分析中应用它们。要点概述理解 COUNT 和 COU

Chrome在这里与AI：每天都有新事物！

Chrome在这里与AI：每天都有新事物！Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution：个性化和高效的浏览体验人工智能（AI）正在迅速改变我们的日常生活，而Google Chrome正在领导网络浏览领域的负责人。本文探讨了兴奋

AI的人类方面：福祉和四人底线

AI的人类方面：福祉和四人底线Apr 17, 2025 am 11:28 AM

重新构想影响：四倍的底线长期以来，对话一直以狭义的AI影响来控制，主要集中在利润的最低点上。但是，更全面的方法认识到BU的相互联系

您应该知道的5个改变游戏规则的量子计算用例

您应该知道的5个改变游戏规则的量子计算用例Apr 17, 2025 am 11:24 AM

事情正稳步发展。投资投入量子服务提供商和初创企业表明，行业了解其意义。而且，越来越多的现实用例正在出现以证明其价值超出

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

1 个月前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

1 个月前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

3 周前ByDDD

Windows 11 KB5054979中的新功能以及如何解决更新问题

2 周前ByDDD

威尔R.E.P.O.有交叉游戏吗？

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SublimeText3 英文版

SublimeText3 英文版

推荐：为Win版本，支持代码提示！

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

热门话题

gmail邮箱登陆入口在哪里

7548

15

1382

52

steam的账户名称是什么格式

83

11

win11激活密钥永久

57

19

NYT连接提示和答案

22

90