首頁 >科技週邊 >人工智慧 >GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back

GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back

王林原創: 2024-07-26 14:40:11480瀏覽

對 AI 來說，奧數不再是問題了。

本週四，Google DeepMind 的人工智慧完成了一項壯舉：用 AI 做出了今年國際數學奧林匹克競賽 IMO 的真題，並且距拿金牌僅一步之遙。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

上週剛結束的 IMO 競賽共有六道賽題，涉及代數、組合學、幾何和數論。谷歌提出的混合 AI 系統做對了四道，獲得 28 分，達到了銀牌水準。

本月初，UCLA 終身教授陶哲軒剛剛宣傳了百萬美元獎金的 AI 數學奧林匹克競賽（AIMO 進步獎），沒想到 7 月還沒過，AI 的做題水平就進步到了這種水平。

IMO 上同步做題，做對了最難題

IMO 是歷史最悠久、規模最大、最負盛名的青年數學家競賽，自 1959 年以來每年舉辦一次。近來，IMO 競賽也被廣泛認為是機器學習領域的重大挑戰，成為衡量人工智慧系統高階數學推理能力的理想基準。

在今年的 IMO 競賽上，由 DeepMind 團隊研發的 AlphaProof 和 AlphaGeometry 2 共同實現了里程碑式的突破。

其中，AlphaProof 是一種用於形式化數學推理的強化學習系統，而 AlphaGeometry 2 是 DeepMind 幾何求解系統 AlphaGeometry 的改進版本。

這項突破顯示具有先進數學推理能力的通用人工智慧 (AGI) 有潛力開啟科學技術新領域。

那麼，DeepMind 的 AI 系統是如何參加 IMO 競賽的呢？

簡單來說，首先這些數學問題被手動翻譯成形式化的數學語言，以便 AI 系統理解。在正式比賽中，人類參賽者分兩節（兩天）提交答案，每節限時 4.5 小時。 AlphaProof+AlphaGeometry 2 組合成的 AI 系統在幾分鐘內就解決了一個問題，但花了三天時間來解決其他問題。雖然如果嚴格按照規則來說的話，DeepMind 的系統超時了。有人推測，這裡面可能涉及大量的暴力破解。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

谷歌表示，AlphaProof 透過確定答案並證明其正確性解決了兩道代數問題和一道數論問題。其中包括本次競賽中最難的問題，在今年的 IMO 上只有五位參賽者解決了。而 AlphaGeometry 2 證明了一個幾何問題。

AI 給出的解：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/index.html

IMO 金牌得主、菲爾茲獎得主Timothy Gowers和兩屆IMO 金牌得主、IMO 2024 問題選擇委員會主席Joseph Myers 博士根據IMO 評分規則，對該組合系統給出的解決方案進行了評分。

六個問題中的每一個問題滿分 7 分，總分最高 42 分。 DeepMind 的系統最終得分為 28 分，意味著解決的 4 個問題都獲得了滿分——相當於銀牌類別的最高分。今年的金牌門檻為 29 分，正式比賽的 609 名選手中有 58 人獲得了金牌。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

該圖顯示了谷歌 DeepMind 的人工智慧系統在 IMO 2024 上相對於人類競爭對手的表現。在總分為 42 分的情況下，該系統獲得了 28 分，達到了與比賽銀牌得主相同的水平。另外，今年 29 分是能拿金牌的。

AlphaProof：一種形式化推理方法

在谷歌使用的混合 AI 系統中，AlphaProofan 來證明數學語言

在谷歌使用的混合 AI 系統中，AlphaProofan 來證明數學語言它結合了預訓練語言模型與 AlphaZero 強化學習演算法。

其中，形式語言為形式化地驗證數學推理證明的正確性，提供了重要優勢。在此之前，這在機器學習中的使用一直受限，因為人工編寫資料數量非常有限。

相較之下，基於自然語言的方法儘管可以存取更多量級的數據，但會產生看似合理而不正確的中間推理步驟與解法。

谷歌 DeepMind 透過微調 Gemini 模型自動將自然語言問題陳述翻譯為形式陳述，在這兩個互補領域之間建立了一座橋樑，從而創建了一個包含不同難度形式問題的大型庫。

🎜給到數學問題，AlphaProof 會產生候選解題方案，然後透過搜尋 Lean 中可能的證明步驟來證明它們。找到並驗證的每個證明方案，都用來強化 AlphaProof 的語言模型，增強其解決後續更具挑戰性問題的能力。 🎜

Untuk melatih AlphaProof, Google DeepMind telah membuktikan atau menafikan berjuta-juta masalah matematik yang merangkumi pelbagai kesukaran dan topik dalam minggu-minggu menjelang pertandingan IMO. Gelung latihan juga digunakan semasa pertandingan untuk mengukuhkan bukti varian masalah persaingan yang dijana sendiri sehingga penyelesaian lengkap ditemui.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back Infografik proses latihan pembelajaran pengukuhan AlphaProof: Kira-kira satu juta masalah matematik tidak formal diterjemahkan ke dalam bahasa matematik formal oleh rangkaian formal. Penyelesai kemudian mencari rangkaian untuk bukti atau penolakan masalah, secara beransur-ansur melatih dirinya sendiri untuk menyelesaikan masalah yang lebih mencabar melalui algoritma AlphaZero.

AlphaGeometry 2 yang lebih kompetitif

AlphaGeometry 2 ialah versi AI matematik AlphaGeometry yang dipertingkatkan dengan ketara yang dipaparkan dalam majalah Nature tahun ini. Ia adalah sistem hibrid neuro-simbolik di mana model bahasa adalah berdasarkan Gemini dan dilatih dari awal pada urutan magnitud lebih banyak data sintetik daripada pendahulunya. Ini membantu model menyelesaikan masalah geometri yang lebih mencabar, termasuk masalah pergerakan objek dan persamaan sudut, perkadaran atau jarak.

AlphaGeometry 2 menggunakan enjin simbolik yang dua urutan magnitud lebih pantas daripada generasi sebelumnya. Apabila masalah baharu dihadapi, mekanisme perkongsian pengetahuan baharu membolehkan gabungan lanjutan pepohon carian berbeza untuk menyelesaikan masalah yang lebih kompleks.

Sebelum pertandingan tahun ini, AlphaGeometry 2 boleh menyelesaikan 83% daripada semua masalah geometri IMO sejarah sejak 25 tahun lalu, berbanding kadar penyelesaian 53% pendahulunya. Dalam IMO 2024, AlphaGeometry 2 menyelesaikan Masalah 4 dalam masa 19 saat selepas menerima pemformalannya.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

Contoh soalan 4, meminta untuk membuktikan bahawa jumlah ∠KIL dan ∠XPY adalah sama dengan 180°. AlphaGeometry 2 bercadang untuk membina titik E pada garis BI supaya ∠AEB = 90°. Titik E membantu memberi makna kepada titik tengah L segmen garis AB dengan itu mewujudkan banyak pasangan segi tiga yang serupa seperti ABE ~ YBI dan ALE ~ IPC untuk membuktikan kesimpulannya.

Google DeepMind juga melaporkan bahawa sebagai sebahagian daripada kerja IMO, para penyelidik juga sedang bereksperimen dengan sistem penaakulan bahasa semula jadi yang terkini berdasarkan Gemini, dengan harapan untuk mencapai keupayaan menyelesaikan masalah yang lebih maju. Sistem ini tidak memerlukan terjemahan soalan ke dalam bahasa formal dan boleh digabungkan dengan sistem AI yang lain. Dalam ujian soalan pertandingan IMO tahun ini, ia "menunjukkan potensi besar."

Google terus meneroka kaedah AI untuk memajukan penaakulan matematik dan merancang untuk mengeluarkan lebih banyak butiran teknikal tentang AlphaProof tidak lama lagi.

Kami teruja dengan masa depan di mana ahli matematik akan menggunakan alatan AI untuk meneroka hipotesis, mencuba cara baharu yang berani untuk menyelesaikan masalah yang telah lama wujud, dan dengan cepat menyelesaikan elemen bukti yang memakan masa—dan sistem AI seperti Gemini akan merevolusikan matematik dan penaakulan yang lebih luas aspek menjadi lebih berkuasa.

Pasukan penyelidik

Google berkata bahawa penyelidikan baharu itu disokong oleh International Mathematical Olympiad Organization Selain itu:

Pembangunan AlphaProof diketuai oleh Thomas Hubert, Rishi Mehta dan Laurent Sartran, termasuk Hussain Masoom; Aja Huang, Miklós Z. Horváth, Tom Zahavy, Vivek Veeriah, Eric Wieser, Jessica Yung, Lei Yu, Yannick Schroecker, Julian Schrittwieser, Ottavia Bertolli, Borja Ibarz, Edward Lockhart, Edward Hughes, Mark Rowland dan Grace Margand.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

Antaranya, Aja Huang, Julian Schrittwieser, Yannick Schroecker dan ahli lain juga merupakan ahli teras kertas AlphaGo 8 tahun lalu (2016). Lapan tahun lalu, AlphaGo mereka, berdasarkan pembelajaran pengukuhan, menjadi terkenal. Lapan tahun kemudian, pembelajaran pengukuhan kembali bersinar dengan AlphaProof. Seseorang mengeluh dalam kalangan rakan-rakan: RL sangat kembali!

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

AlphaGeometry 2 dan kerja inferens bahasa semula jadi diketuai oleh Thang Luong. Pembangunan AlphaGeometry 2 diketuai oleh Trieu Trinh dan Yuri Chervonyi, dengan sumbangan penting daripada Mirek Olšák, Xiaomeng Yang, Hoang Nguyen, Junehyuk Jung, Dawsen Hwang dan Marcelo Menegali.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

Selain itu, David Silver, Quoc Le, Hassabis dan Pushmeet Kohli bertanggungjawab untuk menyelaras dan mengurus keseluruhan projek.

Kandungan rujukan:

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

以上是GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back的詳細內容。更多資訊請關注PHP中文網其他相關文章！

th 算法人工智能 https agi

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K下一篇：英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K

看更多