这篇研究论文“并非所有LLM推理者都是平等的”,探讨了复杂的推理任务中大型语言模型(LLM)的局限性,尤其是那些需要多步解决问题的人。尽管LLM在具有挑战性的数学问题方面表现出色,但面对互连的问题时,它们的性能会大大降低,其中解决一个问题的解决方案将为下一个问题提供信息,这是一个称为“组成推理”的概念。
这项由MILA,Google DeepMind和Microsoft Research的研究人员进行的研究揭示了较小,更具成本效益的LLM的弱点。这些模型虽然精通更简单的任务,但仍在解决链接问题所需的“第二跳推理”。这不是由于数据泄漏之类的问题;相反,它源于无法维护上下文并在逻辑上连接问题部分。教学调整是一种常见的性能增强技术,为较小的型号提供了不一致的好处,有时会导致过度拟合。
关键发现:
- 解决组成问题时,较小的LLMS表现出显着的“推理差距”。
- 在解决互连问题时,性能会急剧下降。
- 指令调整在较小的模型中会导致不一致的改进。
- 这种推理限制限制了在现实世界应用中较小的LLM的可靠性。
- 即使是专业的数学模型,也都在构图推理方面努力。
- 需要更有效的培训方法来增强多步推理能力。
本文使用构图级数学(GSM)测试来说明这一差距。该测试涉及两个链接的问题,其中第一个(Q1)的答案变成了第二个(Q2)的变量(x)。结果表明,大多数模型在组成任务上的表现要比其在单个问题上的表现所预测的要差得多。诸如GPT-4O之类的较大,更强大的模型表现出了卓越的推理能力,而较小的,具有成本效益的模型,甚至是专门从事数学的模型,但表现出大幅下降。
比较开源和封闭源LLM的图表突出了此推理差距。较小,成本效益的模型始终显示出更大的负面推理差距,表明与较大模型相比,在组成任务上的性能较差。例如,GPT-4O显示出最小的间隙,而其他类似Phi 3-Mini-4K-IT的差距则显示出显着的缺点。
进一步的分析表明,推理差距不仅是由于基准泄漏。这些问题源于过度拟合到基准,不相关的环境分散注意力以及在子任务之间未能有效传输信息。
研究得出的结论是,提高组成推理需要创新的培训方法。尽管教学调整和数学专业化等技术提供了一些好处,但它们不足以弥合推理差距。探索替代方法(例如基于代码的推理)可能是必要的,以增强LLM处理复杂的多步推理任务的能力。该研究强调需要改进的培训技术,以使较小,更具成本效益的LLM可靠地执行复杂的推理任务。
以上是LLMS中的复杂推理:为什么较小的模型挣扎?的详细内容。更多信息请关注PHP中文网其他相关文章!

介绍 让我们通过“ Movinets unleashed”深入研究移动视频识别的迷人世界!该博客将为您探索Movinets如何在移动设备上转换视频分析

介绍 想象一下,您在数据项目中深处膝盖,与大量数据集搏斗,并尽快寻找模式。您可以触及自己的数据操纵工具,但是如果存在更好的选择,该怎么办? 输入方面,一个相对较开的

介绍 在启动创新软件的边缘设想了一个动态的IT公司。 尽管兴奋很高,但仍出现了一个关键的挑战:弥合技术开发商与业务利益相关者之间的差距。这是IT业务分析师

介绍 Apache气流是数据编排的关键组成部分,并以其处理复杂的工作流程和自动化数据管道的能力而闻名。许多组织因其灵活性而选择了它

NVIDIA AI峰会2024:深入研究印度的AI革命 在2024年Datahack Summit之后,印度为10月23日25日在孟买的Jio世界会议中心举行的NVIDIA AI Summit 2024做好准备。 这个关键事件舞会

介绍 想象一下,快速,简单的数据库引擎(无需配置)将直接集成到您的应用程序中,并在没有服务器的情况下提供强大的SQL支持。 那是sqlite,在应用程序和网络浏览器中广泛使用,以便于u

被AI烤!热闹的潜入Wordware AI YouTube烤视频非常受欢迎,但是您是否曾经被人工智能烤制? 我最近经历了Wordware AI的喜剧愤怒,这是一个有趣的前任


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

Dreamweaver Mac版
视觉化网页开发工具

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),