微软亚洲研究院联合北京大学、西安交通大学等高校,最近提出了一种名为“从错误中学习(LeMA)”的人工智能训练方法。该方法声称能够通过模仿人类学习的过程,来提升人工智能的推理能力
当下 OpenAI GPT-4 和谷歌 aLM-2 等大语言模型在自然语言处理(NLP)任务,及思维链(chain-of-thought,CoT)推理的数学难题任务中都有不错的表现。
但例如 LLaMA-2 及 Baichuan-2 等开源大模型,在处理相关问题时则有待加强。为了提升开源这些大语言模型的思维链推理能力,研究团队提出了 LeMA 方法。这种方法主要是模仿人类的学习过程,通过“从错误中学习”,以改进模型的推理能力。
▲ 图源 相关论文
本站发现,研究人员的方法是使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为取得相关数据,研究人员收集了 5 个不同大语言模型(包括 LLaMA 及 GPT 系列)的错误答案和推理过程,再以 GPT-4 作为“订正者”,提供修正后的正确答案。
据悉,修正后的正确答案中包含三类信息,分别是原推理过程中错误片段、原推理过程出错的原因、以及如何修正原方法以获得正确答案。
研究人员使用GSM8K和MATH测试了LeMa训练法对5个开源大模型的效果。结果显示,在改进后的LLaMA-2-70B模型中,GSM8K的准确率分别为83.5%和81.4%,而MATH的准确率分别为25.0%和23.6%
目前研究人员已将 LeMA 的相关资料公开在 GitHub 上,感兴趣的小伙伴们可以点此跳转。
以上是微软推出 '从错误中学习” 模型训练法,号称可'模仿人类学习过程,改善 AI 推理能力”的详细内容。更多信息请关注PHP中文网其他相关文章!

解锁Kaggle Grandmasters的秘密:顶级Python图书馆揭示了 Kaggle是数据科学竞赛的主要平台,拥有精选的精英表演者:Kaggle Grandmasters。 这些人一贯提供Innova

工作的未来:AI PC将如何彻底改变工作场所 人工智能(AI)集成到个人计算机(AI PC)中代表了工作场所技术的重大飞跃。 AI PC,定义为AI的融合

Excel冻结窗格功能详解:高效处理大型数据集 Microsoft Excel是组织和分析数据的优秀工具之一,而“冻结窗格”功能更是其一大亮点。此功能允许您固定特定行或列,使其在浏览其余电子表格时保持可见,从而简化数据监控和比较。本文将深入探讨Excel冻结窗格功能的使用方法,并提供一些实用技巧和示例。 功能概述 Excel的冻结窗格功能可在滚动浏览大型数据集时,保持特定行或列可见,方便数据监控和比较。 提升导航效率,保持标题可见,简化大型电子表格中的数据比较。 提供通过“视图”选项卡和“冻

导航互连数据的复杂性:Neo4J与亚马逊海王星 在当今数据丰富的世界中,有效管理复杂的互连信息至关重要。尽管传统数据库仍然相关,但他们经常与HI斗争

Meta的细分段的任何模型2(SAM-2):实时图像和视频细分方面的巨大飞跃 Meta再次通过SAM-2推动了人工智能的界限,SAM-2是计算机视觉的开创性进步

通过AI增强数字消费者体验:一种数据驱动的方法 数字景观具有激烈的竞争力。 本文探讨了人工智能(AI)如何显着改善数字平台上的消费者体验。我们会考试

稳定的扩散:在文本到图像中揭示位置编码的力量 想象一下,从简单的文本描述中产生令人叹为观止的高分辨率图像。 这是稳定扩散的力量,一种尖端的文本对图像模型


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

禅工作室 13.0.1
功能强大的PHP集成开发环境

记事本++7.3.1
好用且免费的代码编辑器

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

WebStorm Mac版
好用的JavaScript开发工具

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),