谷歌DeepMind再发Nature,Alpha系列AI重磅回归,数学水平突飞猛进。
AlphaGeometry,无需人类演示达到IMO金牌选手的几何水平。
有当年AlphaZero无需人类知识学围棋《Mastering the game of Go without human knowledge》的感觉了。
AlphaGeometry在30道IMO难度的几何定理证明题中做对了25道,而人类金牌选手平均做对了25.9道。此外,之前SOTA方法(1978年的吴文俊法)仅能做对10道。
IMO金牌得主陈谊廷(Evan Chen)负责评估AI生成的答案,他评价到:
AlphaGeometry的输出令人印象深刻,既可靠又干净。过去的人工智能解决方案存在偶然性,导致输出有时需要人工检查。
AlphaGeometry的解决方案具有可验证的结构,既可以由机器验证,也可以由人类理解。它使用经典几何规则,如角度和相似三角形,就像学生一样。
除成绩亮眼之外,这项研究中还有三个重点引起业界关注:
- 无需人类演示,也就是只用了AI合成数据训练,延续了AlphaZero自学围棋的方式。
- 大模型结合其他AI方法,与AlphaGo和OpenAI Q*传闻相似。
- 与许多先前方法不同,AlphaGeometry可以生成人类可读的证明过程,且模型和代码都开源。
团队认为,AlphaGeometry提供了一个实现高级推理能力、发现新知识的潜在框架。
这可能有助于推动人工智能的定理证明——被视为构建AGI的关键一步。
另外,量子位在与作者团队交流过程中,打听到了是否真的会让AlphaGeometry去参加一届IMO竞赛,就像当年AlphaGo挑战人类围棋冠军一样。
他们表示正在努力提高系统的能力,还需要让AI能解决几何之外更广泛的数学问题。
AI证明几何也画辅助线
此前AI系统不能很好解决几何问题,卡就卡在缺乏优质训练数据。
人类学习几何可以借助纸和笔,在图像上使用现有知识来发现新的、更复杂的几何属性和关系。
谷歌团队为此用生成了10亿个随机几何对象图,以及其中点和线间的所有关系,最终筛选出1亿不同难度的独特定理和证明,AlphaGeometry在这些数据上完全从头训练。
系统由两个模块组成,相互配合寻找复杂的几何证明。
- 语言模型,预测可用来解决问题的几何结构(也就是添加辅助线)。
- 符号推理引擎,使用逻辑规则推导出结论。
一作Trieu Trinh介绍,AlphaGeometry的运作过程类似人脑分为快与慢两种类型。
也就是诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考快与慢》中普及的“系统1、系统2”概念。
系统1提供快速、直观的想法,系统2提供更加深思熟虑、理性的决策。
一方面,语言模型擅长识别数据中的模式和关系,可以快速预测潜在有用的辅助结构,但通常缺乏严格推理或解释其决策的能力。
另一方面,符号推理引擎基于形式逻辑并使用明确的规则来得出结论。它们是理性且可解释的,但它们缓慢且不灵活,尤其是在独自处理大型、复杂的问题时。
例如在解决一道IMO 2015年的竞赛题时,蓝色部分为AlphaGeometry的语言模型添加的辅助结构,绿色部分是最终证明的精简版,共有109个步骤。
在做题过程中,AlphaGeometry还发现了2004年IMO竞赛题中一个未使用的前提条件,并因此发现了更广义的定理版本。
不需要O是BC的中点这个条件,就能证明P、B、C共线。
另外研究还发现,对于人类得分最低的3个问题,AlphaGeometry也需要非常长的证明过程和添加非常多的辅助结构才能解决。
但在相对简单的问题上,人类平均得分和AI生成的证明长度之间没有显著相关性 (p = −0.06)。
One More Thing
对于AlphaGeometry与AlphaGo的联系和区别,在与团队交流过程中,谷歌科学家Quoc Le介绍到:
他们都是在一个非常复杂的决策空间中搜索,但AlphaGo的方法更传统(注:神经网络负责模式识别),AlphaGeometry中的神经网络负责建议下一步要采取的行动,指导搜索算法在决策空间中向正确的方向移动。
虽然这次成果随Alpha系列命名,第一单位也是Google DeepMind,但其实作者主要是前谷歌大脑成员。
Quoc Le大神不用过多介绍,一作Trieu Trinh与通讯作者Thang Luong都在谷歌工作了六七年,Thang Luong自己高中时也是IMO选手。
两位华人作者中,何河是纽约大学助理教授。吴宇怀此前参与了谷歌数学大模型Minerva研究,现在已经离开谷歌加入马斯克团队,成为xAI的联合创始人之一。
论文地址:https://www.nature.com/articles/s41586-023-06747-5。
参考链接:
[1]https://www.nature.com/articles/d4186-024-00141-5。
[2]https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry。
以上是谷歌数学AI在Nature发表文章:证明超越1978年吴文俊法定理,展示世界级几何水平的详细内容。更多信息请关注PHP中文网其他相关文章!

隐藏者的开创性研究暴露了领先的大语言模型(LLM)的关键脆弱性。 他们的发现揭示了一种普遍的旁路技术,称为“政策木偶”,能够规避几乎所有主要LLMS

对环境责任和减少废物的推动正在从根本上改变企业的运作方式。 这种转变会影响产品开发,制造过程,客户关系,合作伙伴选择以及采用新的

最近对先进AI硬件的限制突出了AI优势的地缘政治竞争不断升级,从而揭示了中国对外国半导体技术的依赖。 2024年,中国进口了价值3850亿美元的半导体

从Google的Chrome剥夺了潜在的剥离,引发了科技行业中的激烈辩论。 OpenAI收购领先的浏览器,拥有65%的全球市场份额的前景提出了有关TH的未来的重大疑问

尽管总体广告增长超过了零售媒体的增长,但仍在放缓。 这个成熟阶段提出了挑战,包括生态系统破碎,成本上升,测量问题和整合复杂性。 但是,人工智能

在一系列闪烁和惰性屏幕中,一个古老的无线电裂缝带有静态的裂纹。这堆积不稳定的电子设备构成了“电子废物土地”的核心,这是身临其境展览中的六个装置之一,&qu&qu

Google Cloud的下一个2025:关注基础架构,连通性和AI Google Cloud的下一个2025会议展示了许多进步,太多了,无法在此处详细介绍。 有关特定公告的深入分析,请参阅我的文章

本周在AI和XR中:一波AI驱动的创造力正在通过从音乐发电到电影制作的媒体和娱乐中席卷。 让我们潜入头条新闻。 AI生成的内容的增长影响:技术顾问Shelly Palme


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载
最流行的的开源编辑器

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)