搜尋
首頁科技週邊人工智慧AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

或許,你做的數學考題,是機器生成的。

#MIT 的學生可以不費吹灰之力就能解決多元微積分、微分方程、線性代數等數學課題,但這些卻把機器學習模型給難倒了。因為機器學習模型只能回答小學或高中程度的數學問題,而且它們並不總是能找到正確答案。

現在,來自MIT、哥倫比亞大學、哈佛大學和滑鐵盧大學的研究者,他們使用小樣本學習、OpenAI 的Codex 來自動合成程序,在幾秒鐘內解決了大學數學問題,達到了人類水準。這項研究發表在《美國國家科學院院刊》(PNAS)。

此外,模型對產生的解決方案還能進行解釋,並能快速產生新的大學數學問題。當研究人員向學生展示這些機器產生的問題時,學生甚至無法判斷這些問題是由演算法產生的還是由人類產生的。

這項研究也可以用來簡化課程內容生成,這對擁有數千名學生的學校和大型開放式網路課程(MOOC)尤其有用。該系統還可以充當線上導師,向學生展示解決數學問題的步驟。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

#論文網址:https://www.pnas.org/doi/epdf/10.1073/pnas.2123433119

該研究的方法結合了三個創新:
  • #與只在文本上進行預訓練不同,該研究在文字上進行預訓練的同時,還在程式碼上進行微調;
  • 採用小樣本學習合成程式能夠正確解決數學問題;
  • 該研究能夠解決問題、解釋解決方案以及產生新問題。

該研究產生新問題範例如下。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

能答題、解題、出題的模型

研究團隊已經為這個專案花費了近兩年時間。他們發現,僅使用文字進行預訓練的模型,在高中數學問題上的準確率不會超過8%,而使用圖神經網路模型,可以在機器學習課程問題上做得很好,但需要一周的時間來訓練。

研究從七門課程中隨機抽取25 個問題:MIT 的18.01 單變量微積分、18.02 多變量微積分、18.03 微分方程、18.05 機率與統計概論、18.06線性代數、6.042 計算機科學數學和哥倫比亞大學的COMS3251 計算線性代數。

對於MATH 資料集,研究從資料集中的六個主題(代數、計數與機率、中級代數、數論、初級代數和微積分)中隨機抽取15 個問題。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

在將這些程式設計任務輸入到神經網路之前,研究人員新增了一個新步驟,使其能夠大大優於以前的嘗試。

與 GPT-3 等網路只在文字上進行預訓練不同。他們把這些問題轉化為程式設計任務,並應用程式合成和小樣本學習技術。把數學問題變成程式設計任務,就像可以簡單地把求兩點之間的距離這個問題改寫為寫一個程式來求兩點之間的差。

值得一提的是該研究不僅對 Codex 進行了文本上的預訓練,還在程式碼上進行了微調,使得其可以產生大規模解決數學問題的程式。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

######

預訓練模型顯示了來自線上儲存庫的數百萬個程式碼範例。由於模型的訓練資料包括數百萬自然語言單字和數百萬行程式碼,因此它可以學習文字片段和程式碼片段之間的關係。

如下圖所示研究使用零樣本和小樣本學習來自動產生程序,該程序可以解決 81% 數學問題。然後他們使用 Codex 來解釋產生的程式。產生的程式可以輸出多種形式的答案。例如計算和描繪奇異值分解(SVD)的幾何形狀,不光給出正確答案,還能給出對應的解釋! AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師應用神經網路 OpenAI Codex 來解決、解釋和產生數學問題。

#論文作者之一Drori 解釋說,許多數學問題可以用圖或樹來解決,但很難將文本編寫的問題轉化為這種表示形式。但是,由於模型已經學習了文字和程式碼之間的關係,因此它可以將文字問題轉換為程式碼,只需給出幾個問題程式碼範例,然後運行程式碼就可以來回答問題。

「當你只使用文字提出問題時,機器學習模型很難給出答案,即使答案可能在文本中,這項工作填補了程式碼和程式合成中缺少的部分。」Drori 說。

Drori 也補充說,這項工作是第一次解決本科數學問題,並將準確率從 8% 提高到 80% 以上。

新增上下文

其實將數學問題轉換為程式設計任務並不總是那麼簡單。有些問題需要研究人員添加上下文,以便神經網路能夠正確處理問題。一個學生在學習這門課程時會了解這種背景知識,但除非研究人員明確說明,否則神經網路不具備這種背景知識。

例如,他們需要說明文字中的網路指的是神經網路而不是通訊網路。或者他們可能需要告訴模型使用哪個程式包。他們可能還需要提供某些定義,例如在關於撲克牌的問題中,他們可能需要告訴模型每副牌包含 52 張牌。

該研究會自動將這些程式設計任務以及包含的上下文和範例輸入到經過預訓練和微調的神經網絡,該神經網路會輸出一個通常能產生正確答案的程序。 80% 以上的問題都是正確的。

研究人員也使用他們的模型來產生問題,透過給神經網路一系列關於某個主題的數學問題,然後讓它創建一個新的問題。例如,有關於水平線和垂直線的量子檢測問題,它產生了關於對角線量子檢測的新問題。因此,它不僅僅是透過替換現有問題中的值和變數來產生新問題。

人類提出的問題與機器生成的問題

研究人員透過向大學生展示機器生成的問題來測試這些問題。研究人員隨機給學生 10 道來自本科數學課程的問題;其中 5 個是由人類創造的,5 個是由機器產生的。

學生無法判斷機器生成的問題是由演算法還是由人工生成的,他們對課程的難度和適當性給予了類似的評分。

AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師

不過,Drori 指出這項工作並不是為了取代人類教授。

「現在準確率已經達到80%,但不會達到100%。每當你解決了一個問題,就會有人提出一個更難的問題。但這項工作為人們開始用機器學習解決越來越難的問題開闢了領域。我們認為這將對高等教育產生巨大影響。」Drori 表示。

研究團隊對他們方法的成功感到興奮,並將工作擴展到處理數學證明上,同時他們還計劃解決一些限制,目前,該模型無法使用視覺化組件回答問題,也無法解決由於計算複雜度而難以計算的問題。

除了克服這些障礙外,該研究還致力於將模型擴展到數百門課程。有了這些課程,他們將產生更多的數據,以提高自動化程度,並提供對課程設計和課程的見解。

以上是AI幾秒鐘內解決大學數學問題,拿到80%多準確率,還擔任出題老師的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境