由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。
当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。
如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。
解码器提示的 DALL-E
神奇的「突现」能力
自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游NLP任务的性能和样本效率。
在许多情况下,我们可以通过推断较小模型的性能趋势预测大型语言模型的性能。例如,规模对语言模型困惑的影响已被验证跨越超过七个数量级。
然而,某些其他任务的性能却并没有以可预测的方式提高。
例如,GPT-3的论文表明,语言模型执行多位数加法的能力对于从100M到13B参数的模型具有平坦的缩放曲线,近似随机,但会在一个节点造成性能的飞升。
鉴于语言模型在NLP研究中的应用越来越多,因此更好地理解这些可能意外出现的能力非常重要。
在近期发表在机器学习研究(TMLR)上的论文「大型语言模型的突现能力」中,研究人员展示了数十个扩展语言模型所产生的「突现」能力的例子。
这种「突现」能力的存在提出了一个问题,即额外的缩放是否能进一步扩大语言模型的能力范围。
某些提示和微调方法只会在更大的模型中产生改进
「突现」提示任务
首先,我们讨论在提示任务中可能出现的「突现」能力。
在此类任务中,预先训练的语言模型会被提示执行下一个单词预测的任务,并通过完成响应来执行任务。
如果没有任何进一步的微调,语言模型通常可以执行训练期间没有看到的任务。
当任务在特定规模阈值下不可预测地从随机性能飙升至高于随机性能时,我们将其称为「突现」任务。
下面我们展示了三个具有「突现」表现的提示任务示例:多步算术、参加大学水平的考试和识别单词的预期含义。
在每种情况下,语言模型的表现都很差,对模型大小的依赖性很小,直到达到某个阈值——它们的性能骤升。
对于足够规模的模型,这些任务的性能只会变得非随机——例如,算术和多任务NLU任务的训练每秒浮点运算次数(FLOP)超过10的22次方,上下文任务中单词的训练FLOP超过10的24次方。
「突现」提示策略
第二类「突现」能力包括增强语言模型能力的提示策略。
提示策略是用于提示的广泛范式,可应用于一系列不同的任务。当它们对小型模型失败并且只能由足够大的模型使用时,它们被认为是可「突现」的。
思维链提示是「突现」提示策略的一个典型示例,提示模型在给出最终答案之前生成一系列中间步骤。
思维链提示使语言模型能够执行需要复杂推理的任务,例如多步数学单词问题。
值得一提的是,模型无需经过明确培训即可获得思维链推理的能力,下图则显示了一个思维链提示的示例。
思维链提示的实证结果如下所示。
对于较小的模型,应用思维链提示并不会优于标准提示,例如当应用于GSM8K时,这是一个具有挑战性的数学文字问题基准。
然而对于大型模型,思维链提示在GSM8K上达到了57%的解决率,在我们的测试中性能显著提升。
研究「突现」能力的意义
那么研究「突现」能力,又究竟有什么意义呢?
识别大型语言模型中的「突现」能力,是理解此类现象及其对未来模型能力的潜在影响的第一步。
例如,由于「突现」小样本提示能力和策略没有在预训练中明确编码,研究人员可能不知道当前语言模型的小样本提示能力的全部范围。
此外,进一步扩展是否会潜在地赋予更大的模型「突现」能力,这个问题同样十分重要。
- 为什么会出现「突现」能力?
- 当某些能力出现时,语言模型的新现实世界应用会被解锁吗?
- 由于计算资源昂贵,能否在不增加扩展性的情况下通过其他方法解锁突现」能力(例如更好的模型架构或训练技术)?
研究人员表示,这些问题尚且不得而知。
不过随着NLP领域的不断发展,分析和理解语言模型的行为,包括由缩放产生的「突现」能力,是十分重要的。
以上是参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」的详细内容。更多信息请关注PHP中文网其他相关文章!

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)