搜尋
首頁科技週邊人工智慧加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化

Apr 23, 2024 pm 03:01 PM
pythonvscodegitaic++llm陶哲軒標準函式庫

Lean Copilot,讓陶哲軒等眾多數學家讚不絕口的這個形式化數學工具,又有超強進化了?

就在剛剛,加州理工學院教授Anima Anandkumar宣布,團隊發布了Lean Copilot論文的擴展版本,並且更新了程式碼庫。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

論文網址:https://arxiv.org/pdf/2404.12534.pdf

#最新實驗表明,這個Copilot工具,可以自動化80%以上的數學證明步驟了!這個紀錄,比以前的基線aesop還要好2.3倍。

並且,和以前一樣,它在MIT許可下是開源的。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

他是華人小哥宋沛洋,他是UCSB的榮譽CS本科生,加州理工學院計算數學科學(CMS)系的SURF研究員。

網友驚呼:所以,陶哲軒現在的數學研究可以原地加速5倍了?

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

LLM提出證明策略,人類無縫幹預

團隊就發布了這個Lean Copilot的工具,希望啟動人類和LLM的協作,寫出100%準確的形式化數學證明。

它解決了一個核心技術挑戰:在Lean中運行LLM的推理。

透過這個工具,我們可以讓LLM在Lean中提出證明策略,讓人類以無縫的方式介入和修改。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

之所以開發這個項目,是因為自動化定理證明在如今仍是一項艱鉅的挑戰。

我們都知道,LLM在做數學和推理任務時,常常會犯錯、產生幻覺,十分不可靠。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

因此,到目前為止,數學證明大多是手動推導的,需要仔細驗證。

像Lean這的定理證明工具,倒是可以形式化證明過程的每一步,但人類寫起Lean,實在很費力。

在這種情況下,Lean Copilot的誕生就顯得意義重大。

讓陶哲軒多次震驚的神器:數學家還不會用就完蛋了

LLM可以作為輔助人類證明定理的工具,這論點已經被陶哲軒多次證實了。

他前腳剛在部落格預測,26年AI將和搜尋、符號數學工具結合,成為數學研究中值得信賴的合著者。

緊接著,佐證他觀點的研究就如雨後春筍一般源源不絕地冒出來。

去年6月,加州理工、英偉達、MIT等機構的學者,就建構了一個基於開源LLM的定理證明器LeanDojo。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

9月,微軟亞洲研究院、北大、北航等機構的研究人員,透過97個回合的「蘇格拉底式」嚴格推理,成功讓GPT-4得出了「P≠NP」的結論,破解了這個千禧年難題

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

在第97輪對話中,GPT-4得出結論,證明範例在沒有窮舉法的情況下無法求解,證明了結論為P≠NP

去年10月,陶哲軒在GPT-4、Copilot的幫助下,直接發現了自己論文中的一處隱藏bug。

在用Lean4形式化第6頁論點的過程中發現,他發現表達式

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

在n=3,k=2時,其實是發散的。

這個不太容易看出的bug能被及時抓住,多虧了Lean4。原因是,Lean要求他建構02。由此,Lean無法基於負的0

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

這個發現直接讓陶哲軒瞳孔震驚。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

而在去年年底,#陶哲軒直接成功地用AI工具,完成了形式化多項式Freiman-Ruzsa猜想證明過程的工作

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

最後,依賴關係圖已經完全被綠色所覆蓋,Lean編譯器也報告說,這個猜想完全遵循標準公理。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

在這個過程中,所有最前線的數學研究者,都在第一時間感受到了AI對於數學研究顛覆力量的直接衝擊。

Lean Coilot,讓Lean更好用

而今天,Lean Copilot的這項研究,讓Lean直接變得更強大了。

在這篇論文中,團隊基於Lean Copilot建立了一些工具,用於建議證明步驟(策略建議)、完成中間證明目標(證明搜尋)和使用LLM選擇相關前提(前提選擇)。

實驗結果也充分證明了,跟Lean中現有的基於規則的證明自動化相比,Lean Copilot在輔助人類自動化定理證明上,是有效的。

Lean Copilot提供了一個通用框架,可以透過CTranslate 2在本地,或在伺服器上執行LLM的推理。

透過這個框架,使用者就能創造各種自動化證明工具。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

Lean是數學家中很受歡迎的證明助手。如下圖所示,Lean中的一個證明,是由一系列被稱為策略(tactics)的證明步驟組成。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

從整個定理開始作為初始目標,策略反覆地將目前的目標轉換為更簡單的子目標,直到所有目標都解決。

使用者在由VSCode驅動的IDE中互動編寫策略,在右邊的infoview面板中顯示目標。

產生策略建議

利用Lean Copilot,團隊建立了suggest_tropics,一種用LLM產生策略建議的工具。

而它本身,也是一種策略。

應用程式時,它會將目前目標輸入LLM,並且從LLM取得產生的策略候列表。

它會查看每個選項,看它們是否會 1)導致錯誤;2)結果沒有錯,但不能完成證明;3)順利完成證明。

如果是1),這個策略就會被刪除。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

只有無錯誤的策略,才會顯示在右邊的視圖面板中。

其中,成功完成證明的策略,使用綠色標記(類別3);沒有錯誤改變證明目標,但未完成證明的策略,使用藍色標記(類別2)。

注意!當所有列出的策略都屬於類別2時,這個資訊對於使用者來說,可能極有價值。

在這種情況下,剩餘目標的訊息,可以直接幫助使用者選擇策略,作為下一個中間證明步驟。

看到建議後,使用者可以選擇是否接受,或使用它們作為靈感來源,制定新策略。

例如,我們在Lean程式碼中定義了一個定理add_abc,它的初始目標如圖3右所示。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

當我們輸入suggest_tropics時,會在右邊看到策略建議。

第一個策略顯示為綠色,表示證明已成功完成。

接下來三個建議都是藍色,這表示無法直接完成證明,但不會導致錯誤。

因而,它們很有可能是有效的中間證明步驟!

同時,剩餘子目標也顯示了出來。

而Tactic state欄位顯示No goal,是因為至少有一個策略建議可以被證明。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

搜尋完整證明

此外,因為人類和機器都不能始終如一地產生正確的策略,因此在這個過程中必須回溯、探索不同的替代方案,這個過程就是證明搜尋。

當是上面所說的Suggest_tropics,僅能產生目前步驟的策略,不具備搜尋多策略證明的能力。

為此,團隊將其與基於規則的證明搜尋工具aesop結合起來,建立了一個基於LLM的證明搜尋工具。

Aesop會將最佳優先搜尋作為Lean的策略實施,並且允許使用者配置搜尋樹的擴展方式。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

搜尋樹是由作為節點的目標組成。

起初,它只有原始目標作為根節點。在每一步中,aesop都會選擇最有希望的未擴展節點,透過應用程式策略對其擴展,將產生的節點新增為子節點。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

而當aesop找到一條從根源到可輕鬆解決的目標的路徑,就證明搜尋成功了!

因此,aesop的效能關鍵取決於使用者是否配置了有效的規則集。

這就可以看出,aesop缺乏彈性。因此,Search_proof透過在每個步驟中由suggest_tropics產生的目標相關策略,來增強aesop的規則集,讓它變得更加靈活。

對於圖3中的原始目標,使用者只需輸入search_prrof,找到可以解決目標的完整證明,就顯示在了資訊視圖中(圖5右)。

可以看到,由於發現了成功的證據,所以剩餘的Tactic state是No goals。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

選擇註解好的前提

此外,定理證明中另一個具有挑戰性的重要任務是,找到減少或完成證明的相關前提。

除了原始碼庫和標準函式庫中有大量前提,Lean還有一個大型數學函式庫(Mathlib)。

然而,從所有函式庫中搜尋候選前提,極為困難且耗時耗力。

所以許多人試圖,能在Lean,或其他的證明助手中得到輔助,或自動完成這一過程。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

在Lean中,最先進的前提選擇方法是,直接在Lean中實現的基於隨機森林( random forest)的框架。

然而,前提選擇任務非常適合檢索增強型LLM,即在大模型訓練期間訓練檢索矩陣(前提嵌入),以估計證明目標與候選前提之間的相關性。

給定推理時的證明目標,首先將目標編碼成一個向量,然後在前提嵌入和目標向量之間執行矩陣向量乘法。

然後,為了選擇前k個前提(其中k可以是超參數,決定使用者想要回傳多少前提),此時只要回傳得分最高的k個前提。

而要在Lean中執行推理任務,除了Lean Copilot提供的快速推理外,還需要一個高效的矩陣乘法庫和一個C 的numpy矩陣閱讀器。

研究人員採用了來自CTranslate2的矩陣乘法函數,和來自Libnpy的C 快速numpy檔案讀取器。

他們又透過FFI機制,將這些數字連結到Lean。

因此,前提選擇的策略可以非常有效率地運行,因為前提嵌入可以預先計算,所有後續操作都可以使用上文介紹的函式庫在C 中快速完成。

在獲得回傳的前提後,研究者進一步以有用的信息對其進行註解。

這裡將所有前提分為兩類:可直接在當前環境中使用的前提(範圍內前提)和不可直接在當前環境中使用的前提(範圍外前提)。

這取決於是否導入了所需的軟體包。

如果已經導入了前提所需的套件,則可以輕鬆使用該前提。如下圖6顯示了附註解的範圍內前提。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化

圖7所示是註解的範圍外前提。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化

下面舉個使用「前提選擇」的例子,對於圖3中的定理add_abc,可以直接在證明中輸入select_premises(圖8左)。

然後,相關前提的列表,就會出現在資訊視圖中(圖8右)。

對於這個簡單的定理,可以清楚地看到所選的前提確實相關,因為它們都與自然數和加法規則有關。

在這種情況下,所選的4個前提都在目前範圍內,這表示它們的模組已經導入。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化

如上,便是研究人員透過Lean Copilot建構的三個實用的證明自動化工具,用於策略建議、搜尋證明和前提選擇。

81.2%的證明步驟,全都自動化了

透過Lean Copilot框架,研究人員憑經驗提出了假設-在Lean互動定理證明(ITP)中進行人機協作是有益的。

由於Lean中的定理證明過程,主要以策略證明為主。

因此,在具體實驗中,作者主要評估了用於「策略建議」,以及「證明搜尋」的證明自動化工具。

總而言之,aesop是當前是一種用於證明搜索,最先進的基於規則的證明自動化工具。

研究人員在兩種情況下,驗證了基於LLM的搜尋證明與aesop相比的有效性:

(1)自主證明定理(LLM獨立完成)

(2)協助人類進行定理證明(人類與AI協作)

此外,研究者還將搜尋證明與策略建議進行了比較,以證明除了單一策略建議之外,搜尋證明體現的優勢。

研究Lean Copilot如何有效地幫助人類進行ITP的過程,類似於人類在軟體程式設計中使用Copilot的範式。

也就是說,當我們面對一個目標時,首先會呼叫Copilot,看其是否可以直接解決問題。

如果不能,我們會進一步簡化目標,然後再嘗試Copilot。然後,一直重複上述過程,直至Copilot成功解決剩餘目標。

而研究人員是透過這樣的迭代協作範例中,去查看每個證明自動化工具可以自動化多少人力。

具體結果,如下表1顯示。

證明搜尋(search_proof)可以自動證明64%的定理(50個中的32個),明顯高於aesop和策略建議(suggest_tropics)。

當用於輔助人類時,證明搜尋只需要平均1.02個手動輸入策略,這也比aesop(3.62)和策略建議(2.72)更好。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

最後,對於每個測試的定理,作者計算了三個工具中每一個可以自動化的證明步驟的百分比。

結果發現,證明搜尋可以自動完成定理中約81.2%的證明步驟,明顯高於策略建議(48.6%)和aesop(35.2%)。

總之,證明搜尋的效能比策略建議,高出1.67倍,比基於規則的基線aesop高2.31倍。

透過Copilot在Lean中進行本地LLM推理

Lean Copilot中的tactic建議、證明搜尋和前提選擇,這三個任務本質上可能看起來不同,但對於使用者體驗的要求是相似的。

它們都需要足夠快速地產生回應,具有適中的運算需求,同時在Lean中運行。

使用者之所以有這些要求,是因為Lean本身在大多數情況下都能非常快速地提供環境回饋(例如剩餘目標,錯誤訊息,類型資訊等)。

這種快速,跟證明定理的本質是一致的-它需要連貫的推理。

如果Lean Copilot需要使用者等待很長一段時間,那麼人類和AI之間的協作就很難發揮作用。

同樣,我們也非常希望滿足低運算的需求。因為Lean中的定理證明本身不需要GPU,可以在使用者本地的筆記型電腦上運作。

因此,能夠在大多數硬體(包括沒有GPU的筆記型電腦)上高效運行,對於Lean的用戶就非常重要。

因為使用者在編寫證明時,可能無法存取支援CUDA的GPU。

因為需要滿足快速推理和低運算需求,而且所有流行的高效深度學習框架都是在Python中,團隊想到的一個自然的解決方案,就是在Python中託管模型(本地或遠端),然後從Lean向模型發出請求。

然而,這種方法會受到進程間通訊的開銷的影響,並且它需要使用者執行額外的設定步驟,並不適合Lean的傳統工作流程。

為了克服這些問題,Lean Copilot透過外部功能介面(FFI)在Lean中本地運行LLM。

FFI是一種機制,可以用一種語言寫的程式呼叫另一種語言的子程式。

Lean部分用c 實現,可以與c 高效互通。

程式設計師可以在Lean中宣告一個函數,但在c 中實作函數體。實作會被編譯到一個共享庫中,並動態連結到Lean。

預設情況下,我們採用的是LeanDojo預訓練的repver模型。它基於一個編碼器-解碼器轉換器,BVT5,它將輸入字串映射到輸出字串。

Lean Copilot透過將模型包裝成一個對字串操作的c 函數,使其在Lean中可運行,該函數可以透過FFI在精益中呼叫。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

華人作者立大功

最新論文中的三人團隊,也是23年6月開源平台LeanDojo其中的作者。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

論文網址:https://arxiv.org/pdf/2306.15626.pdf

#Peiyang Song(宋沛洋)


加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

宋沛洋是加州大學聖塔芭芭拉分校創意研究學院(CCS)的電腦科學榮譽本科生,導師是Richert Wang和Phill Conrad 。

同時,他也是加州理工學院計算與數學科學系(CMS)的SURF研究員,由Anima Anandkumar教授和Kaiyu Yang博士共同指導。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

另外,他也是UC伯克利建築實驗室的研究員,與Tim Sherwood和Dr. Jeremy Lau(Google )一起合作。

他的研究興趣是機器學習(ML),涉及自然語言處理(NLP)和電腦視覺(CV)等應用領域,以及系統和程式語言(PL)等基礎理論。

宋沛洋最近的研究主要有兩個方向。

一是神經符號推理和人工智慧數學(AI4Math),將大模型與互動式定理證明器(ITPs)相結。

另一個是基於時序邏輯的高能效機器學習。

Kaiyu Yang(楊凱峪)

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

楊凱峪是加州理工學院計算數學科學(CMS)系的博士後研究員,指導教授是Anima Anandkumar。

他曾在普林斯頓大學獲得了博士學位,導師是Jia Deng,也曾與Olga Russakovsky、陳丹琦一起工作。

他的研究重點是神經符號人工智慧,旨在使機器學習能夠進行符號推理,希望透過兩個方向實現:

(1)將機器學習應用於符號推理任務,如形式邏輯或自然語言中的數學推理和定理證明;

(2)將符號組件引入機器學習模型,使其更具可解釋性、可驗證性和數據高效。

目前,他正在研究能夠理解和推理數學的人工智慧。數學推理是人類智慧的一個重要里程碑,它有可能改變科學和工程中的許多重要問題,例如解決偏微分方程和公式驗證。

Anima Anandkumar

Anima Anandkumar現在是加州理工學院計算和數學科學教授。

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化圖片

她的研究興趣主要集中在大規模機器學習、非凸優化和高維度統計等領域。

特別是,她一直在帶頭開發和分析機器學習的張量演算法。

張量分解方法具有極高的平行性和可擴展性,可應用於大量資料。它可以保證收斂到最優解,並對許多機率模型(例如Markov模型)輸出一致的估計結果。

更廣泛地說,Anandkumar教授一直在研究加速非凸優化的高效技術。

參考資料:

https://www.php.cn/link/1dd5a4016c624ef51f0542d4ae60e281

#https://www.php.cn/link/ed798eec75807df6e79b0be391f720e4

#https://www.php.cn/link /a652e914c736dfaf8a6667ae6936f0d6

##

以上是加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
免費生成的AI課程:開創創新的未來免費生成的AI課程:開創創新的未來Apr 19, 2025 am 10:01 AM

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

使用通用句子編碼器和Wikiqa創建QA模型使用通用句子編碼器和Wikiqa創建QA模型Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型

前十名必須閱讀機器學習研究論文前十名必須閱讀機器學習研究論文Apr 19, 2025 am 09:53 AM

本文探討了十個徹底改變人工智能(AI)和機器學習(ML)的開創性出版物。 我們將研究神經網絡和算法的最新突破,並解釋驅動現代AI的核心概念。 Th

替換SEO機構的11個AI工具 - 分析Vidhya替換SEO機構的11個AI工具 - 分析VidhyaApr 19, 2025 am 09:49 AM

AI在SEO中的崛起:超過SEO代理商的前11個工具 AI的快速發展已深刻地重塑了SEO景觀。 旨在提高頂級搜索引擎排名的企業正在利用AI優化其在線策略的能力。 來自AU

前10個免費的AI遊樂場供您在2025年嘗試-Analytics Vidhya前10個免費的AI遊樂場供您在2025年嘗試-Analytics VidhyaApr 19, 2025 am 09:45 AM

探索2024年最好的免費AI遊樂場:綜合指南 訪問正確的工具和平台是在不斷發展的人工智能(AI)領域學習和創新的關鍵。 AI遊樂場提供了絕佳的機會

矢量數據庫中索引算法的詳細指南矢量數據庫中索引算法的詳細指南Apr 19, 2025 am 09:41 AM

介紹 向量數據庫是專門的數據庫,旨在有效地存儲和檢索高維矢量數據。 這些向量代表數據點的特徵或屬性,範圍從數十到數千個維度,具體取決於

反向擴散過程是什麼? - 分析Vidhya反向擴散過程是什麼? - 分析VidhyaApr 19, 2025 am 09:40 AM

穩定的擴散:揭示反向擴散的魔力 穩定的擴散是一種強大的生成模型,能夠從噪聲中產生高質量的圖像。此過程涉及兩個關鍵步驟:正向擴散過程(在上一個A中詳細介紹

掌握及時工程中的字典技術鏈掌握及時工程中的字典技術鏈Apr 19, 2025 am 09:38 AM

解鎖AI潛力:詞典鏈,用於增強及時工程 在人工智能和自然語言處理的快速發展的景觀中,速度和效率至關重要。 詞典方法e

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器