搜尋
首頁科技週邊人工智慧AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

或許,你做的數學考題,是機器生成的。

#MIT 的學生可以不費吹灰之力就能解決多元微積分、微分方程、線性代數等數學課題,但這些卻把機器學習模型給難倒了。因為機器學習模型只能回答小學或高中程度的數學問題,而且它們並不總是能找到正確答案。

現在,來自MIT、哥倫比亞大學、哈佛大學和滑鐵盧大學的研究者,他們使用小樣本學習、OpenAI 的Codex 來自動合成程序,在幾秒鐘內解決了大學數學問題,達到了人類水準。這項研究發表在《美國國家科學院院刊》(PNAS)。

此外,模型對產生的解決方案還能進行解釋,並能快速產生新的大學數學問題。當研究人員向學生展示這些機器產生的問題時,學生甚至無法判斷這些問題是由演算法產生的還是由人類產生的。

這項研究也可以用來簡化課程內容生成,這對擁有數千名學生的學校和大型開放式網路課程(MOOC)尤其有用。該系統還可以充當線上導師,向學生展示解決數學問題的步驟。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

#論文網址:https://www.pnas.org/doi/epdf/10.1073/pnas.2123433119

該研究的方法結合了三個創新:
  • #與只在文本上進行預訓練不同,該研究在文字上進行預訓練的同時,還在程式碼上進行微調;
  • 採用小樣本學習合成程式能夠正確解決數學問題;
  • 該研究能夠解決問題、解釋解決方案以及產生新問題。

該研究產生新問題範例如下。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

能答題、解題、出題的模型

研究團隊已經為這個專案花費了近兩年時間。他們發現,僅使用文字進行預訓練的模型,在高中數學問題上的準確率不會超過8%,而使用圖神經網路模型,可以在機器學習課程問題上做得很好,但需要一周的時間來訓練。

研究從七門課程中隨機抽取25 個問題:MIT 的18.01 單變量微積分、18.02 多變量微積分、18.03 微分方程、18.05 機率與統計概論、18.06線性代數、6.042 計算機科學數學和哥倫比亞大學的COMS3251 計算線性代數。

對於MATH 資料集,研究從資料集中的六個主題(代數、計數與機率、中級代數、數論、初級代數和微積分)中隨機抽取15 個問題。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

在將這些程式設計任務輸入到神經網路之前,研究人員新增了一個新步驟,使其能夠大大優於以前的嘗試。

與 GPT-3 等網路只在文字上進行預訓練不同。他們把這些問題轉化為程式設計任務,並應用程式合成和小樣本學習技術。把數學問題變成程式設計任務,就像可以簡單地把求兩點之間的距離這個問題改寫為寫一個程式來求兩點之間的差。

值得一提的是該研究不僅對 Codex 進行了文本上的預訓練,還在程式碼上進行了微調,使得其可以產生大規模解決數學問題的程式。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

######

預訓練模型顯示了來自線上儲存庫的數百萬個程式碼範例。由於模型的訓練資料包括數百萬自然語言單字和數百萬行程式碼,因此它可以學習文字片段和程式碼片段之間的關係。

如下圖所示研究使用零樣本和小樣本學習來自動產生程序,該程序可以解決 81% 數學問題。然後他們使用 Codex 來解釋產生的程式。產生的程式可以輸出多種形式的答案。例如計算和描繪奇異值分解(SVD)的幾何形狀,不光給出正確答案,還能給出對應的解釋! AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師應用神經網路 OpenAI Codex 來解決、解釋和產生數學問題。

#論文作者之一Drori 解釋說,許多數學問題可以用圖或樹來解決,但很難將文本編寫的問題轉化為這種表示形式。但是,由於模型已經學習了文字和程式碼之間的關係,因此它可以將文字問題轉換為程式碼,只需給出幾個問題程式碼範例,然後運行程式碼就可以來回答問題。

「當你只使用文字提出問題時,機器學習模型很難給出答案,即使答案可能在文本中,這項工作填補了程式碼和程式合成中缺少的部分。」Drori 說。

Drori 也補充說,這項工作是第一次解決本科數學問題,並將準確率從 8% 提高到 80% 以上。

新增上下文

其實將數學問題轉換為程式設計任務並不總是那麼簡單。有些問題需要研究人員添加上下文,以便神經網路能夠正確處理問題。一個學生在學習這門課程時會了解這種背景知識,但除非研究人員明確說明,否則神經網路不具備這種背景知識。

例如,他們需要說明文字中的網路指的是神經網路而不是通訊網路。或者他們可能需要告訴模型使用哪個程式包。他們可能還需要提供某些定義,例如在關於撲克牌的問題中,他們可能需要告訴模型每副牌包含 52 張牌。

該研究會自動將這些程式設計任務以及包含的上下文和範例輸入到經過預訓練和微調的神經網絡,該神經網路會輸出一個通常能產生正確答案的程序。 80% 以上的問題都是正確的。

研究人員也使用他們的模型來產生問題,透過給神經網路一系列關於某個主題的數學問題,然後讓它創建一個新的問題。例如,有關於水平線和垂直線的量子檢測問題,它產生了關於對角線量子檢測的新問題。因此,它不僅僅是透過替換現有問題中的值和變數來產生新問題。

人類提出的問題與機器生成的問題

研究人員透過向大學生展示機器生成的問題來測試這些問題。研究人員隨機給學生 10 道來自本科數學課程的問題;其中 5 個是由人類創造的,5 個是由機器產生的。

學生無法判斷機器生成的問題是由演算法還是由人工生成的,他們對課程的難度和適當性給予了類似的評分。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

不過,Drori 指出這項工作並不是為了取代人類教授。

「現在準確率已經達到80%,但不會達到100%。每當你解決了一個問題,就會有人提出一個更難的問題。但這項工作為人們開始用機器學習解決越來越難的問題開闢了領域。我們認為這將對高等教育產生巨大影響。」Drori 表示。

研究團隊對他們方法的成功感到興奮,並將工作擴展到處理數學證明上,同時他們還計劃解決一些限制,目前,該模型無法使用視覺化組件回答問題,也無法解決由於計算複雜度而難以計算的問題。

除了克服這些障礙外,該研究還致力於將模型擴展到數百門課程。有了這些課程,他們將產生更多的數據,以提高自動化程度,並提供對課程設計和課程的見解。

以上是AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。