搜索
首页科技周边人工智能深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

这项工作代表了 AI 在数学推理上的能力突破,是开发通用 AI 系统方面的重要里程碑。

这一次,人工智能算法在数学奥林匹克竞赛(IMO)上取得了重大成绩突破。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

在最新一期的国际权威期刊《自然》杂志上,发表了一篇论文介绍了名为AlphaGeometry的人工智能系统。该系统能够解决奥林匹克几何问题,而无需人类的示范。专家认为,这是人工智能朝着具备人类推理能力的方向迈进的重要里程碑。这项研究成果的发表对于推动人工智能的进一步发展具有重要意义。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

论文链接:https://www.nature.com/articles/s41586-023-06747-5

DeepMind 也在论文发表的第一时间将代码和模型开源,GitHub:https://github.com/google-deepmind/alphageometry

这是一种人工智能系统,来自 Google DeepMind 研究者之手,它能够以接近人类奥赛金牌得主的水平解决复杂的几何问题。

在对30道奥数几何题的基准测试中,AlphaGeometry在标准奥数时限内解决了25道题,而之前最先进的系统只解决了其中10道几何问题。与此相比,人类金牌得主的平均解决问题数量为25.9个。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

对于基于学习的AI模型来说,定理证明是一项具有挑战性的任务。主要原因在于,大多数数学领域中的人类证明很难被翻译成机器可验证的语言,从而限制了用于训练AI模型的数据量。为了克服这一问题,DeepMind提出了一种替代方法,即使用合成数据进行定理证明。他们开发了一个通用的指导框架,称为AlphaGeometry,该框架在许多领域都具有适用性。通过利用合成数据,AlphaGeometry能够训练AI模型进行定理证明,并产生高质量的结果。这一方法为解决定理证明的困难提供了一种有效的解决方案。

研究介绍

AlphaGeometry 将语言模型与「符号引擎」相结合,借助符号和逻辑规则进行数学推论。在这其中,语言模型擅长识别、预测流程的后续步骤,但缺乏数学推理所需的严谨性;另一方面,符号引擎纯粹基于形式逻辑和严格的规则,这使得它能够引导语言模型走向理性决策。

在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。而之前最先进的方法(Wu’s method)只能解决 10 个。

众所周知,由于缺乏推理技能和训练数据,AI 系统经常难以解决几何和数学方面的复杂问题。AlphaGeometry 系统将神经语言模型的预测能力与规则约束推理引擎相结合,两者协同工作以找到了新的解决方案。

此外,为了解决数据难题,该研究生成了大量的合成训练数据,即 1 亿个示例,其中许多定理的证明步骤超过 200 步,比数学奥林匹克竞赛定理的平均证明长度长 4 倍。

AlphaGeometry 展示了 AI 不断增长的逻辑推理能力以及发现和验证新知识的能力。解决奥林匹克级别的几何问题是 AI 在迈向更先进和通用人工智能系统道路上的一个重要里程碑。 

菲尔兹奖得主、IMO 金牌获得者 Ngô Bảo Châu(吴宝珠)表示:「现在我完全明白了,为什么 AI 研究者们会首先尝试解决国际数学奥林匹克 (IMO) 的几何题目,因为找到它们的解决方案有点像下棋,我们在每一步都有相对较少的合理走法。但我仍然对他们能够实现这一点感到震惊。这是一项令人印象深刻的成就。」

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

吴宝珠,2010 年菲尔兹奖得主,现任芝加哥大学教授。

AlphaGeometry 是一个神经符号系统,由神经语言模型和符号推演引擎组成,它们共同寻找复杂几何定理的证明。一个系统提供快速、直观的想法,而另一种则提供更加深思熟虑、理性的决策。

由于语言模型擅长识别数据中的一般模式和关系,因此它们可以快速预测潜在有用的结构,但通常缺乏严格推理或做出解释。另一方面,符号推演引擎基于形式逻辑并使用明确的规则来得出结论,两者相互配合,共同构成了 AlphaGeometry。

AlphaGeometry 的语言模型引导其符号推演引擎寻找几何问题的可能解决方案。一般的奥林匹克几何问题基于图表,需要添加新的几何结构才能解决,例如点、线或圆。AlphaGeometry 的语言模型可以从无数种可能性中预测添加哪些新结构最有用。这些线索有助于填补空白,并允许符号引擎对图表进行进一步推论并接近解决方案。

举例来说,下图(上)为 AlphaGeometry 解答简单题的过程,题目为「设 ABC 为 AB = AC 的任意三角形。证明∠ABC = ∠BCA。」

AlphaGeometry 证明过程是这样的:AlphaGeometry 通过运行符号推演引擎(symbolic deduction  engine)启动证明搜索。这个引擎会从定理的前提出发,详尽地推导出新的陈述,直到定理得到证明或者新的陈述被耗尽。假如符号引擎未能找到证明,语言模型会构造一个辅助点,在符号引擎重新开始之前增加可证明的条件。这个循环一直持续到找到解决方案为止。对于简单的例子,循环在第一个辅助结构「 BC 的中点添加 D 点」之后终止。

下图(下)为 AlphaGeometry 解决 IMO 的解题思路。「证明三角形 FKM 和 KQH 的外接圆 (O1) 和 (O2) 彼此相切……」,这么复杂的问题,AlphaGeometry 同样也能证明,证明过程还给出了辅助点等。出于说明目的,证明过程被大大缩短和编辑。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

生成 1 亿数学推理训练数据

人类可以在纸上进行勾画来学习几何、检查图表并使用现有知识来发现新的、更复杂的几何属性和关系。该研究生成合成数据的方法大规模模拟了这种知识构建过程。其中生成合成数据的方法如图 3 所示。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

使用高度并行计算,系统首先生成 5 亿个几何对象的随机图,并详尽地导出每个图中点和线之间的所有关系。AlphaGeometry 找到每个图中包含的所有证明,然后逆向推导,找出需要哪些额外的结构(如果有的话)来获得这些证明。这一过程为「符号推演与回溯」。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

由 AlphaGeometry 生成的合成数据的可视化表示

之后,这个巨大的数据池被过滤以排除类似的示例,从而产生了 1 亿个训练数据集。

开创性的人工智能推理能力

AlphaGeometry 提供的每一道奥数题的解法都经过计算机检查和验证。研究人员还将其结果与之前的人工智能方法以及人类在奥林匹克竞赛中的表现进行了比较。此外,数学教练、前奥赛金牌得主 Evan Chen(陈谊廷)为我们评估了 AlphaGeometry 的一系列解决方案。

深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉

陈谊廷,MIT 数学在读博士,曾获得 IMO 2014 年金牌。

Evan Chen 表示:「AlphaGeometry 的输出令人印象深刻,因为它既可验证又干净。过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。另一方面,它的输出仍然是人类可读的。人们可以想象一个通过强力坐标系解决几何问题的计算机程序:想想一页又一页繁琐的代数计算,AlphaGeometry 不是这样做的,它像人类学生一样使用带有角度和相似三角形的经典几何规则。」

最近一段时间,金融科技公司 XTX Markets 设立了人工智能奥林匹克数学奖(AI-MO Prize),旨在鼓励能够进行数学推理的人工智能模型的开发。由于每个奥林匹克竞赛都有六个问题,其中只有两个通常集中在几何上,因此 AlphaGeometry 只能应用于给定奥林匹克竞赛中的三分之一问题。

尽管如此,AlphaGeometry 仅靠自己的几何解题能力就成为了世界上第一个能够在 2000 年和 2015 年通过 IMO 铜牌门槛的人工智能模型。

DeepMind 已在着手推进下一代人工智能系统的推理。研究人员认为,鉴于利用大规模合成数据从头开始训练人工智能系统的广泛潜力,这种方法可能会影响未来人工智能系统发现数学及其他领域新知识的方向。

AlphaGeometry 开创了人工智能数学推理的先河 —— 从探索纯数学之美到使用语言模型解决数学和科学问题。人们希望这种技术能够继续提升,进而解决更高级、抽象的数学问题。

而在数学之外,AlphaGeometry 的影响或许还可以覆盖到包含几何问题的更多领域,如计算机视觉、建筑,甚至理论物理学等。

参考内容:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

以上是深度学习在几何推理上获得天才级表现,Nature发表了DeepMind的模型,并于菲尔兹奖得主新闻中获得赞誉的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
AI技能差距正在减慢供应链AI技能差距正在减慢供应链Apr 26, 2025 am 11:13 AM

经常使用“ AI-Ready劳动力”一词,但是在供应链行业中确实意味着什么? 供应链管理协会(ASCM)首席执行官安倍·埃什肯纳齐(Abe Eshkenazi)表示,它表示能够评论家的专业人员

一家公司如何悄悄地努力改变AI一家公司如何悄悄地努力改变AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地获得动力。 本周五在德克萨斯州奥斯汀,Bittensor最终游戏峰会标志着一个关键的时刻,将分散的AI(DEAI)从理论转变为实际应用。 与闪闪发光的广告不同

NVIDIA释放NEMO微服务以简化AI代理开发NVIDIA释放NEMO微服务以简化AI代理开发Apr 26, 2025 am 11:11 AM

企业AI面临数据集成挑战 企业AI的应用面临一项重大挑战:构建能够通过持续学习业务数据来保持准确性和实用性的系统。NeMo微服务通过创建Nvidia所描述的“数据飞轮”来解决这个问题,允许AI系统通过持续接触企业信息和用户互动来保持相关性。 这个新推出的工具包包含五个关键微服务: NeMo Customizer 处理大型语言模型的微调,具有更高的训练吞吐量。 NeMo Evaluator 提供针对自定义基准的AI模型简化评估。 NeMo Guardrails 实施安全控制,以保持合规性和适当的

AI为艺术与设计的未来描绘了一幅新图片AI为艺术与设计的未来描绘了一幅新图片Apr 26, 2025 am 11:10 AM

AI:艺术与设计的未来画卷 人工智能(AI)正以前所未有的方式改变艺术与设计领域,其影响已不仅限于业余爱好者,更深刻地波及专业人士。AI生成的艺术作品和设计方案正在迅速取代传统的素材图片和许多交易性设计活动中的设计师,例如广告、社交媒体图片生成和网页设计。 然而,专业艺术家和设计师也发现AI的实用价值。他们将AI作为辅助工具,探索新的美学可能性,融合不同的风格,创造新颖的视觉效果。AI帮助艺术家和设计师自动化重复性任务,提出不同的设计元素并提供创意输入。 AI支持风格迁移,即将一种图像的风格应用

Zoom如何彻底改变与Agent AI的合作:从会议到里程碑Zoom如何彻底改变与Agent AI的合作:从会议到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其视频会议平台而闻名,它通过创新使用Agentic AI来引领工作场所革命。 最近与Zoom的CTO XD黄的对话揭示了该公司雄心勃勃的愿景。 定义代理AI 黄d

对大学的存在威胁对大学的存在威胁Apr 26, 2025 am 11:08 AM

AI会彻底改变教育吗? 这个问题是促使教育者和利益相关者的认真反思。 AI融入教育既提出了机遇和挑战。 正如科技Edvocate的马修·林奇(Matthew Lynch)所指出的那样

原型:美国科学家正在国外寻找工作原型:美国科学家正在国外寻找工作Apr 26, 2025 am 11:07 AM

美国科学研究和技术发展或将面临挑战,这或许是由于预算削减导致的。据《自然》杂志报道,2025年1月至3月期间,美国科学家申请海外工作的数量比2024年同期增加了32%。此前一项民意调查显示,75%的受访研究人员正在考虑前往欧洲和加拿大寻找工作。 过去几个月,数百项NIH和NSF的拨款被终止,NIH今年的新拨款减少了约23亿美元,下降幅度接近三分之一。泄露的预算提案显示,特朗普政府正在考虑大幅削减科学机构的预算,削减幅度可能高达50%。 基础研究领域的动荡也影响了美国的一大优势:吸引海外人才。35

所有有关打开AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有关打开AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了强大的GPT-4.1系列:一个专为现实世界应用设计的三种高级语言模型家族。 这种巨大的飞跃提供了更快的响应时间,增强的理解和大幅降低了成本

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器