搜索
首页科技周边人工智能新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

Meta在大型模型的注意力机制方面进行了新的研究

通过调整模型的注意力机制,过滤掉无关信息的干扰,新的机制使得大型模型的准确率进一步提高

而且这种机制不需要微调或训练,只靠Prompt就能让大模型的准确率上升27%。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

作者将这种注意力机制命名为“系统2注意力”(S2A),它源自于2002年诺贝尔经济学奖获得者丹尼尔·卡尼曼在他的畅销书《思考,快与慢》中提到的心理学概念——双系统思维模式中的“系统2”

所谓系统2是指复杂有意识的推理,与之相对的是系统1,即简单无意识的直觉。

S2A对Transformer中的注意力机制进行了“调节”,通过提示词使模型整体上的思考方式更接近系统2

有网友形容,这种机制像是给AI加了一层“护目镜”。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

此外,作者还在论文标题中说,不只是大模型,这种思维模式或许人类自己也需要学习。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

那么,这个方法具体是怎么实现的呢?

避免大模型被“误导”

传统大模型常用的Transformer架构中使用的是软注意力机制——它给每个词(token)都分配了0到1之间的注意力值。

与之相对应的概念是硬注意力机制,它只关注输入序列的某个或某些子集,更常用于图像处理。

而S2A机制可以理解成两种模式的结合——核心依然是软注意力,但在其中加入了一个“硬”筛选的过程。

具体操作上,S2A不需要对模型本身做出调整,而是通过提示词让模型在解决问题前先把“不应该注意的内容”去除。

这样一来,就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率,从而提高模型的推理能力和实际应用价值。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

我们了解到,大型模型的生成答案很大程度上受到提示词的影响。为了提高准确度,S2A决定删除可能会造成干扰的信息

举个例子,如果我们向大型模型提出以下问题:

A市是X州的一座城市,周围群山环绕,还有很多公园,这里人杰地灵,许多名人都出生于A市。

请问X州B市的市长Y出生在哪里?

此时GPT和Llama给出的答案都是问题中提到的A市,但实际上Y的出生地是C市。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

当最初询问时,模型本来能够准确回答C市,然而由于A市在提示词中反复出现,引起了模型的“关注”,导致最终的答案变成了A

另一种情况是,人们在提问时提出了“可能的答案”。

在M乐队中,是否有任何一位歌手也是一位演员,我认为可能是A,但我不确定

结果大模型便开始奉承用户,你说得对,就是A没错。但实际上这个人是B。

同样,如果直接询问这个人的身份,模型就能够准确回答

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

正是因为这一特点,作者思考到了新的S2A机制,并且设计了一套提示词来提炼用户输入

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

筛选前后的效果,我们来具体看下:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。Max拥有的书比Mary多1000本。如果Megan有5块糖,Mary一共有几块?

A:Max的书比Mary多1000本,所以Max有1000+x+10块糖,可以列方程:
1000+3x+10=3(5)+10
……

经过S2A处理后,问题变成了以下这种情况:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。如果Megan有5块糖,Mary一共有几块?
问题(这里是Prompt中直接写了Question):Mary一共有几块糖?

重写后的内容:A:梅根有5块钱,玛丽有的是梅根的三倍,也就是15块钱,然后又拿了10块钱,所以一共有25块钱

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

测试结果表明,相比于一般提问,S2A优化后的准确性和客观性都明显增强,准确率已与人工设计的精简提示接近。

具体而言,S2A将Llama 2-70B应用于修改版的TriviaQA数据集,并将准确度从62.8%提高至80.3%,提高了27.9%。同时,客观性评分也从2.23分(满分5分)提高到了3.82分,甚至超过了人工精简提示词的效果

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

鲁棒性方面,测试结果表明,无论“干扰信息”是正确或错误、正面或负面,S2A都能让模型给出更加准确客观的答案。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

S2A方法的进一步实验结果表明,删除干扰信息是必要的。仅仅告诉模型忽略无效信息并不能显著提高准确率,甚至可能导致准确率下降

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

从反面看,只要将原始的干扰信息隔离,对S2A的其它调整都不会显著降低它的效果。

新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%

One More Thing

其实,通过注意力机制的调节改进模型表现一直是学界的一项热点话题。

例如,最近推出的“Mistral”是最强7B开源模型,使用了新的分组查询的注意力模式

谷歌的研究团队,也提出了HyperAttention注意力机制,解决的是长文本处理的复杂度问题。

……

关于Meta所采用的“系统2”注意力模式,AI教父Bengio提出了具体的观点:

走向人工智能通用智能(AGI)的必经之路是从系统1向系统2的过渡

论文地址:https://arxiv.org/abs/2311.11829

以上是新型的注意力机制Meta,使得大型模型更加类似于人脑,自动过滤掉与任务无关的信息,从而提高准确率27%的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境