GoogleDeepMind再發Nature,Alpha系列AI重磅回歸,數學水準突飛猛進。
AlphaGeometry,無需人類示範達到IMO金牌選手的幾何等級。
有當年AlphaZero無需人類知識學圍棋《Mastering the game of Go without human knowledge》的感覺了。
AlphaGeometry在30道IMO難度的幾何定理證明題中做對了25道,而人類金牌選手平均做對了25.9道。此外,之前SOTA方法(1978年的吳文俊法)僅能做對10道。
IMO金牌得主陳誼廷(Evan Chen)負責評估AI生成的答案,他評價到:
AlphaGeometry的輸出令人印象深刻,既可靠又乾淨。過去的人工智慧解決方案存在偶然性,導致輸出有時需要手動檢查。
AlphaGeometry的解決方案具有可驗證的結構,既可以由機器驗證,也可以由人類理解。它使用經典幾何規則,如角度和相似三角形,就像學生一樣。
除成績亮眼之外,這項研究中還有三個重點引起業界關注:
- #無需人類演示,也就是只用了AI合成資料訓練,延續了AlphaZero自學圍棋的方式。
- 大模型結合其他AI方法,與AlphaGo和OpenAI Q*傳聞相似。
- 與許多先前方法不同,AlphaGeometry可以產生人類可讀的證明過程,且模型和程式碼都開源。
團隊認為,AlphaGeometry提供了一個實現高階推理能力、發現新知識的潛在架構。
這可能有助於推動人工智慧的定理證明——被視為建構AGI的關鍵一步。
另外,量子位元在與作者團隊交流過程中,打聽到了是否真的會讓AlphaGeometry去參加一屆IMO競賽,就像當年AlphaGo挑戰人類圍棋冠軍一樣。
他們表示正在努力提升系統的能力,還需要讓AI能解決幾何以外更廣泛的數學問題。
AI證明幾何也畫輔助線
先前AI系統無法很好解決幾何問題,卡就卡在缺乏優質訓練資料。
人類學習幾何可以藉助紙和筆,在圖像上使用現有知識來發現新的、更複雜的幾何屬性和關係。
Google團隊為此用產生了10億個隨機幾何物件圖,以及其中點和線間的所有關係,最終篩選出1億不同難度的獨特定理和證明,AlphaGeometry在這些資料上完全從頭訓練。
系統由兩個模組組成,相互配合尋找複雜的幾何證明。
- 語言模型,預測可用來解決問題的幾何結構(也就是新增輔助線)。
- 符號推理引擎,使用邏輯規則推導出結論。
一作Trieu Trinh介紹,AlphaGeometry的運作過程類似人腦分為快與慢兩種類型。
也就是諾貝爾經濟學獎得主丹尼爾‧卡尼曼的暢銷書《思考快與慢》中普及的「系統1、系統2」概念。
系統1提供快速、直覺的想法,系統2提供更深思熟慮、理性的決策。
一方面,語言模型擅長識別資料中的模式和關係,可以快速預測潛在有用的輔助結構,但通常缺乏嚴格推理或解釋其決策的能力。
另一方面,符號推理引擎基於形式邏輯並使用明確的規則來得出結論。它們是理性且可解釋的,但它們緩慢且不靈活,尤其是在獨自處理大型、複雜的問題時。
例如在解決一個IMO 2015年的競賽題時,藍色部分為AlphaGeometry的語言模型添加的輔助結構,綠色部分是最終證明的精簡版,共有109個步驟。
在做題過程中,AlphaGeometry也發現了2004年IMO競賽題中一個未使用的前提條件,並因此發現了更廣義的定理版本。
不需要O是BC的中點這個條件,就能證明P、B、C共線。
另外研究也發現,對於人類得分最低的3個問題,AlphaGeometry也需要非常長的證明過程和增加非常多的輔助結構才能解決。
但在相對簡單的問題上,人類平均分數和AI產生的證明長度之間沒有顯著相關性 (p = −0.06)。
One More Thing
對於AlphaGeometry與AlphaGo的聯繫和區別,在與團隊交流過程中,Google科學家Quoc Le 介紹到:
他們都是在一個非常複雜的決策空間中搜索,但AlphaGo的方法更傳統(註:神經網路負責模式識別),AlphaGeometry中的神經網路負責建議下一步要採取的行動,指導搜尋演算法在決策空間中向正確的方向移動。
雖然這次成果隨Alpha系列命名,第一單位也是Google DeepMind,但其實作者主要是前Google大腦成員。
Quoc Le大神不用過多介紹,一作Trieu Trinh與通訊作者Thang Luong都在谷歌工作了六七年,Thang Luong自己高中時也是IMO選手。
兩位華人作者中,何河是紐約大學助理教授。吳宇懷先前參與了Google數學大模型Minerva研究,現在已經離開谷歌加入馬斯克團隊,成為xAI的聯合創始人之一。
論文地址:https://www.nature.com/articles/s41586-023-06747-5。
參考連結:
[1]https://www.nature.com/articles/d4186-024-00141 -5。
[2]https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry。
以上是Google數學AI在Nature發表文章:證明超越1978年吳文俊法定理,展示世界級幾何水平的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具