高数考不好,不知道是多少人的噩梦。
如果说你高数考得还不如AI好,是不是就更难以接受了?
没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
这件事最近还登上了微博热搜。
△“仅”得81分,对AI的期待也太高了吧
现在,谷歌那边又传来了最新大消息:
不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!
看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。
谷歌这个最新AI做题家,参加了四门考试。
数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。
至于别的AI做题家们,以前最好成绩只有6.9分……
但这一次,谷歌新AI却刷到了50分,比计算机博士还高。
综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。
这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。
小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。
就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。
最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——
它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。
值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:
我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。
看到这里,有的家长已经坐不住了。
如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!
在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。
那么,这是怎么做到的?
AI狂读arXiv上200万篇论文
新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。
分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。
Minerva做题与Codex的思路完全不同。
Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。
而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。
在PaLM的基础上继续训练,新增的数据集有三部分:
主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。
通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。
但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。
与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。
但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。
缺点,是可能出现AI用错误的步骤得到正确答案的情况。
优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。
到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。
先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。
具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。
再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。
最后还有Majority Voting多数表决方法,也是今年3月才发表的。
让AI多次回答同一个题目,选择答案中出现频率最高的。
所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。
甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。
说了这么多,Minerva具体都能做出哪些题目?
对此谷歌也开放出了样例集,一起来看一下。
数理化生全能,连机器学习都会
数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。
对于应用题,可以自己列出方程式并做简化。
甚至还可以推导证明。
物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。
生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。
以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?
以下哪种是放射性元素?
以及天文学:为什么地球拥有很强的磁场?
在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。
……
不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。
除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。
经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。
其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。
总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。
有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?
不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。
还有网友提出,既然它可以做题,那么能不能反过来出题?
事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。
他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。
总之现在的情况,除了搞AI的在忙着读这篇论文以外。
学生们盼着有一天能用AI做作业。
老师们也盼着有一天能用AI出卷子。
论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo地址:https://minerva-demo.github.io/
相关论文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171
参考链接:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
以上是AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士的详细内容。更多信息请关注PHP中文网其他相关文章!

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

SublimeText3汉化版
中文版,非常好用

Dreamweaver Mac版
视觉化网页开发工具

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

Atom编辑器mac版下载
最流行的的开源编辑器