搜尋
首頁科技週邊人工智慧AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

高數考不好,不知道是多少人的惡夢。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

如果說你高數考得還不如AI好,是不是就更難接受了?

沒錯,來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%,妥妥的MIT本科生水準。

課程範圍從初級微積分到微分方程、機率論、線性代數都有,題目形式除了計算、甚至還有畫圖。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

這件事最近還登上了微博熱搜。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

△「僅」得81分,對AI的期待也太高了吧

現在,Google那邊又傳來了最新大消息:

不只數學,我們的AI甚至在整個理工科上,都已經拿到最高分啦!

看來在培養「AI做題家」這件事上,科技巨頭們已經捲出了新高度。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

Google這個最新AI做題家,參加了四門考試。

數學競賽考試MATH,以往只有三屆IMO金牌得主才拿過90分,普通的電腦博士甚至只能拿到40分左右。

至於別的AI做題家們,以前最好成績只有6.9分…

但這一次,Google新AI卻刷到了50分,比電腦博士還高。

綜合考試MMLU-STEM,內含數理化生、電子工程和電腦科學,題目難度達到高中甚至大學程度。

這次,GoogleAI“滿血版”,也都拿到了做題家中的最高分,直接將分數拉高了20分左右。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

小學數學題GSM8k,直接將成績拉升到78分,相較之下GPT-3還沒及格(僅55分)。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程,Google新AI也能在200多題中,答出將近三分之一。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

最重要的是,與OpenAI憑藉「程式設計技巧」取得數學高分的方法不同,GoogleAI這次,走的可是「像人一樣思考」的路子——

它像文科生一樣只背書不做題,卻掌握了更好的理工科解題技巧。

值得一提的是,論文一作Lewkowycz也分享了一個論文中沒寫到的亮點:

我們的模型參加了今年的波蘭數學高考,成績比全國平均還要高。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

看到這裡,有的家長已經坐不住了。

如果告訴我女兒這件事,我怕她用AI做功課。但如果不告訴她,就沒有讓她對未來做好準備!

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

在業界人士看來,只靠語言模型,不對算數、邏輯和代數做硬編碼達到這種水平,是這項研究最驚豔的地方。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

那麼,這是怎麼做到的?

AI狂讀arXiv上200萬篇論文

新模型Minerva,基於Pathway架構下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的想法完全不同。

Codex的方法是把每道數學題改寫成程式題,再靠寫程式碼來解決。

而Minerva則是狂讀論文,硬生生以理解自然語言的方式去理解數學符號。

在PaLM的基礎上繼續訓練,新增的資料集有三個部分:

主要有arXiv上收集的200萬篇學術論文,60GB帶LaTeX公式的網頁,以及一小部分在PaLM訓練階段就用到過的文字。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

通常的NLP資料清洗過程會把符號都刪除只保留純文字,導致公式不完整,例如愛因斯坦著名的質能方程式只剩下了Emc2。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

但Google這次把公式都保留,和純文字一樣走一遍Transformer的訓練程序,讓AI像理解語言一樣去理解符號。

與先前的語言模型相比,這是Minerva在數理問題上表現較好的原因之一。

但與專門做數學題的AI相比,Minerva的訓練中沒有顯式的底層數學結構,這帶來一個缺點和一個優點。

缺點,是可能出現AI用錯誤的步驟得到正確答案的情況。

優點,是可以適應不同學科,即使有些問題無法用正規的數學語言表達出來,也可以結合自然語言理解能力解出來。

到了AI的推理階段,Minerva也結合了多個最近谷歌開發的新技術。

先是Chain of Thought思維連結提示,今年一月由Google大腦團隊提出。

具體來說就是在提問的同時給一個逐步回答的範例來引導。 AI在做題時就可以採用類似的思考過程,正確回答原本會答錯的題目。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

再有是Google和MIT合作開發的Scrathpad草稿紙方法,讓AI把逐步計算的中間結果暫時儲存起來。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

最後還有Majority Voting多數決方法,也是今年3月才發表的。

讓AI多次回答同一個題目,選擇答案中出現頻率最高的。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

所有這些技巧全用上以後,5,400億參數的Minerva在各種測試集中達到SOTA。

甚至80億參數版的Minerva,在競賽級數學題和MIT公開課問題中,也能達到GPT-3最新更新的davinci-002版本水準。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

說了這麼多,Minerva具體能做出哪些題目?

對此Google也開放出了範例集,一起來看一下。

數理化生全能,連機器學習都會

數學上,Minerva可以像人類一樣按步驟計算數值,而不是直接暴力求解。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

對於應用問題,可以自己列出方程式並做簡化。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

甚至可以推導出證明。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

物理上,Minerva可以求中性氮基態(Z = 7)電子的總自旋量子數這樣的大學水平題目。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

生物和化學上,Minerva憑藉語言理解能力也可以做各種選擇題。

下列哪一種點突變形式對DNA序列形成的蛋白質沒有負面影響?

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

下列哪一個是放射性元素?

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

以及天文學:為什麼地球擁有很強的磁場?

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

在機器學習方面,它透過解釋「分佈外樣本檢測」的具體意義,從而正確了給出這個名詞的另一種說法。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

……

不過,Minerva有時也會犯一些低階錯誤,像是把等式兩邊的√給消了。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

除此之外,Minerva會出現的推理過程錯誤但結果對的「假陽性」情況,例如下面這種,有8%的可能性。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

經過分析後,團隊發現主要的錯誤形式來自計算錯誤和推理錯誤,只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。

其中計算錯誤可以輕易透過存取外部計算器或Python解釋器來解決,但其他種類的錯誤因為神經網路規模太大就不太好調整了。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

總的來看,Minerva的表現讓許多人感到驚艷,紛紛在留言區求API(可惜Google目前並沒有公開計畫)。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

有的網友想到,加上前幾日讓GPT-3解題正確率暴漲61%的「哄一哄」大法,它的準確率或許還可以再提高?

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

不過作者的回應是,哄一哄方法屬於零樣本學習,再強恐怕也比不上帶4個例子的少樣本學習。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

還有網友提出,既然它可以做題,那麼能不能反過來出題?

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

事實上用AI給大學生出題這件事,MIT已經聯合OpenAI在做了。

他們把人類出的題和AI出的題混在一起,找學生來做問卷調查,大家也很難分辨一道題目是不是AI出的。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

總之現在的情況,除了搞AI的在忙著讀這篇論文以外。

學生們盼望有一天能用AI做作業。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

老師們也盼著有一天能用AI出卷子。

AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士

論文網址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo網址:https://minerva- demo.github.io/

相關論文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org /abs/2203.11171

參考連結:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https: //twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

以上是AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),