这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion。
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
GPT-4再度进化!
加上一个简单方法,就能让GPT-4这类大语言模型学会自我反思,性能直接提升30%。
在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。
现在,它不会这样了,有了新方法的加成,GPT-4不仅会反思自己哪里错了,还会给出改进策略。
比如说它会自动分析为什么“陷入循环”:
或者说反思一下自己有缺陷的搜索策略:
这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion。
不仅适用于GPT-4,也适用于其他大语言模型,让它们学会人类特有的反思能力。
目前该论文已经发表在预印平台arxiv上。
这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。”
甚至有网友为开发人员发来“饭碗警告”:
用这种方法写代码的时薪是要比普通开发人员便宜的。
利用二元奖励机制实现反思
正如网友所言,Reflexion赋予GPT-4的反思能力和人类的思考过程差不多:
可以简单用两个字来概括:反馈。
在这个反馈过程中,又可以分为三大步:
- 1、评估:测试当前生成答案的准确性
- 2、自我反省的产生:错误识别——实现修正
- 3、执行一个迭代反馈循环
在第一步评估的过程中,首先要经历的是LLM(大语言模型)的自我评估。
也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。
那如何进行自我反思?
研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:
1代表生成的结果OK,0则表示生成的结果不太行。
而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。
要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。
在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。
在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。
不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的Ω和ε中就能体现。
Ω表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。
而ε则表示在反思的过程中允许执行的最大操作数量。
既然有监督,那修正也必须执行,修正过程的函数是这样子的:
其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。
这样一来,LLM在反思的过程中便能够迸发出更多有“创新性”的东西。
反思之后性能提升近30%
既然GPT-4这类LLM都能够进行自我反思了,那具体效果究竟如何?
研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30%。
而没有使用Reflexion,在重复问答之后,性能没有任何变化。
在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97%。
在另外一篇博客中,团队成员也晒出了他们这种方法在GPT-4上的效果,测试范围是编写代码。
结果也显而易见,用了Reflexion,GPT-4的编程能力直接提升了21%。
关于GPT-4已经会“思考”了,你怎(huang)么(le)看(ma)?
论文地址:https://arxiv.org/abs/2303.11366
以上是GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样的详细内容。更多信息请关注PHP中文网其他相关文章!

使用Gemma范围探索语言模型的内部工作 了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包,为研究人员提供了一种强大的探索方式

解锁业务成功:成为商业智能分析师的指南 想象一下,将原始数据转换为驱动组织增长的可行见解。 这是商业智能(BI)分析师的力量 - 在GU中的关键作用

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

介绍 想象一个繁华的办公室,两名专业人员在一个关键项目中合作。 业务分析师专注于公司的目标,确定改进领域,并确保与市场趋势保持战略一致。 simu

Excel 数据计数与分析:COUNT 和 COUNTA 函数详解 精确的数据计数和分析在 Excel 中至关重要,尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的,其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格,但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节,突出它们独特的特性和区别,并学习如何在数据分析中应用它们。 要点概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:个性化和高效的浏览体验 人工智能(AI)正在迅速改变我们的日常生活,而Google Chrome正在领导网络浏览领域的负责人。 本文探讨了兴奋

重新构想影响:四倍的底线 长期以来,对话一直以狭义的AI影响来控制,主要集中在利润的最低点上。但是,更全面的方法认识到BU的相互联系

事情正稳步发展。投资投入量子服务提供商和初创企业表明,行业了解其意义。而且,越来越多的现实用例正在出现以证明其价值超出


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SublimeText3汉化版
中文版,非常好用

SublimeText3 Linux新版
SublimeText3 Linux最新版

禅工作室 13.0.1
功能强大的PHP集成开发环境