搜索
首页科技周边人工智能给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?

现在,诸如 ChatGPT 这样的大型语言模型已经足够强大,它们已经开始表现出惊人的、让人难以预测的行为。

在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什么电影呢?

图片

可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提示任务是去年评测大型语言模型(LLM)204 个任务中的其中一个任务。对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有文献中,从未有讨论过语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种模型涌现行为的清单,其中包括 Ethan Dyer 项目中确定的几种行为。如今,该清单仍然在继续变长。

如今,研究人员不仅竞相确定大模型涌现能力,而且还想弄清楚它们发生的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现的风险。

突然的涌现

生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞;水分子创造了波浪;椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象;细胞使肌肉运动和心脏跳动。至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力,因为这些模型刚刚才发展到足够巨大的规模。

语言模型已经存在了几十年。直到大约五年前,最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习:它的预测会反馈到网络中以提高未来的性能。

2017 年,谷歌大脑(Google Brain)的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西,而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接,通过在训练期间打乱文本,transformers 可以调整这些连接从而改进模型。模型中的参数越多,它就越能准确地建立连接,越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端,并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是,比起在真正的 Linux 设备上运行相同的代码,它可以更快地完成任务。

与通过表情符号描述电影的任务一样,研究人员没有理由认为为预测文本而构建的语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多都证明了零样本或小样本学习,它们描述了 LLM 拥有解决以前从未(或很少)遇到的问题的能力。Ganguli 说,这一直是人工智能研究的长期目标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况下解决问题,Ganguli 表示,「这让我放弃了我正在做的事情,更多地参与到这项研究中。」

在这个研究领域里,他并不孤单。大量研究人员已经发现了 LLM 可以超越其训练数据限制的第一个线索,他们正在努力更好地理解涌现是什么样子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。

Ethan Dyer 帮助探索了大型语言模型具有什么样意想不到的能力,以及它们会带来什么。-Gabrielle Lurie

超越模仿

2020 年,Dyer 和谷歌研究院的其他研究人员预测大型语言模型将产生变革性影响 —— 但这些影响是什么仍然是一个悬而未决的问题。因此,他们要求研究界提供有关困难且多样化任务的例子,以记录追踪 LLM 可以做什么的外部极限。这项工作被称为 BIG-bench(Beyond the Imitation Game Benchmark) 项目,借用了艾伦・图灵 (Alan Turing) 模仿游戏的名称,目的是测试计算机是否能够以让人信服的人类方式回答问题。(这后来被称为图灵测试。)该研究组对 LLM 突然获得前所未有新能力的例子特别感兴趣。

正如人们所预料的那样,在某些任务中,随着复杂性的增加,模型的性能会得到更为稳定且可预测性的提升。而在其他任务上,扩大参数数量并没有对模型性能产生任何改善。而对于大约 5% 的任务,研究人员发现了他们所谓的突破 —— 在某个阈值范围内,性能出现了快速、戏剧性的跃升。不过该阈值会因任务和模型而异。

例如,参数相对较少(仅有几百万)的模型可能无法成功完成三位数的加法或两位数的乘法问题,但若拥有数百亿参数,某些模型的运算准确性会飙升。类似的性能跃升也出现在其他的一些任务中,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的组合)段落中的冒犯性内容,以及生成与斯瓦希里语谚语类似的英语对应语。

但是,研究人员很快就意识到,模型的复杂性并不是其性能涌现的唯一驱动因素。如果数据质量足够高,一些意想不到的能力可以从参数较少或是在较小数据集上训练的较小模型中诱导而出。此外,查询的措辞方式也会影响模型响应的准确性。例如,当 Dyer 和他的同事使用多项选择格式(multiple-choice format)来安排电影表情符号任务时,准确性并不是突然的跳跃式提高,而是随着模型复杂性的增加而逐渐提高。去年,在该领域的顶级学术会议 NeurIPS 上发表的一篇论文中,谷歌大脑(Google Brain)的研究人员展示了一个具备 prompt 的模型可以自我解释(一种被称为思维链推理的能力)如何正确解答数学应用题,而没有该 prompt 的同一模型却不能解答该应用题。

在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。

谷歌大脑系统性研究科学家 Yi Tay 指出,最近的研究表明思维链 prompt 改变了扩展曲线,从而改变了模型涌现出现的节点。谷歌研究人员在他们的 NeurIPS 论文中表明,使用思维链 prompts 可以引发 BIG-bench 研究中未识别到的涌现行为。此类要求模型解释其推理的 prompt 可能有助于研究人员开始调研涌现发生的原因。

布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说,最近的这些发现至少表明了涌现出现原因的两种可能性。第一个可能性是,正如与生物系统的比较所表明的那样,更大的模型确实会自发地获得新的能力。很可能是该模型学到了一些全新的和不同的东西,而这些东西在较小规模的模型上是没有的,这就是我们都希望的情况,即当模型按比例放大时会发生一些根本性的变化。

Ellie Pavlick 还指出,另一种相对正常客观的可能性是,看似涌现的事情可能反而是通过思维链式推理起作用的内部统计驱动过程的顶点。大型 LLM 可能只是在学习启发式方法,而这些启发式方法对于那些参数较少或数据质量较低的小模型来说却是难以理解的。

不过 Pavlick 认为,由于我们不知道模型底层的工作机制是怎样的,所以我们无法说出发生了哪些事情。

不可预测的能力和缺陷

但是大模型也存在缺陷,比如谷歌前段时间推出的人工智能聊天机器人 Bard,在回答与詹姆斯・韦布空间望远镜有关的问题时犯下事实性错误。

涌现导致了不可预测性,而不可预测性 —— 似乎随着模型的规模扩大而增加,研究人员难以掌控。

「我们很难提前知道这些模型将如何被使用或部署,」Ganguli 说。「要研究涌现现象,你必须考虑一个情况,在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。」

在去年 6 月发布的一篇 LLM 分析报告中,Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见,这与之前不是基于 LLM 的算法(用于预测哪些前罪犯可能会再次犯罪)所报告的那些不同。该研究的灵感来自一个与涌现直接相关的明显悖论:随着模型在扩大规模时性能提升,它们也可能增加不可预测现象的可能性,包括那些可能导致偏见或带来害处的现象。

「某些有害行为会在某些模型中突然出现,」Ganguli 说。他指出最近一个对 LLM 的分析 —— 也被称为 BBQ 基准 —— 表明社会偏见随着大量参数的出现而出现。「 更大的模型突然变得更有偏见,」 他说,如果不能解决这一风险,可能会危及这些模型的使用。

但他还提出了一个相反的观点:当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时 —— 字面上来说,就是通过输入这些指令时,模型在其预测和响应时的偏见较小。这表明一些涌现的特性也可用于减少偏见。在 2 月份发布的一篇论文中,Anthropic 团队报告了一种新的道德自我修正模式,在这种模式下,用户提示程序是有帮助的、诚实的和无害的。

Ganguli 说,涌现既揭示了大型语言模型惊人的潜力,也揭示了其不可预测的风险。这些 LLM 的应用已经激增,因而更好理解这种双面性将有助于利用语言模型能力的多样性。

Ganguli 说:「我们正在研究用户实际上是如何使用这些系统的,不过他们也在不断地修补改进这些系统。我们花了很多的时间,只是为了与我们的模型聊天,使其功能更好。而实际上也就是从那时起,我们开始信任这些模型。」

以上是给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
Word文本框没有旋转按钮怎么办Word文本框没有旋转按钮怎么办Dec 08, 2022 am 09:50 AM

Word文本框没有旋转按钮的解决办法:打开兼容模式文档后按F12键另存为高版本,再打开就可以了。

令人惊艳的4个ChatGPT项目,开源了!令人惊艳的4个ChatGPT项目,开源了!Mar 30, 2023 pm 02:11 PM

自从 ChatGPT、Stable Diffusion 发布以来,各种相关开源项目百花齐放,着实让人应接不暇。今天,着重挑选几个优质的开源项目分享给大家,对我们的日常工作、学习生活,都会有很大的帮助。

Word文档拆分后的子文档字体格式变了怎么办Word文档拆分后的子文档字体格式变了怎么办Feb 07, 2023 am 11:40 AM

Word文档拆分后的子文档字体格式变了的解决办法:1、在大纲模式拆分文档前,先选中正文内容创建一个新的样式,给样式取一个与众不同的名字;2、选中第二段正文内容,通过选择相似文本的功能将剩余正文内容全部设置为新建样式格式;3、进入大纲模式进行文档拆分,操作完成后打开子文档,正文字体格式就是拆分前新建的样式内容。

学术专用版ChatGPT火了,一键完成论文润色、代码解释、报告生成学术专用版ChatGPT火了,一键完成论文润色、代码解释、报告生成Apr 04, 2023 pm 01:05 PM

用 ChatGPT 辅助写论文这件事,越来越靠谱了。 ChatGPT 发布以来,各个领域的从业者都在探索 ChatGPT 的应用前景,挖掘它的潜力。其中,学术文本的理解与编辑是一种极具挑战性的应用场景,因为学术文本需要较高的专业性、严谨性等,有时还需要处理公式、代码、图谱等特殊的内容格式。现在,一个名为「ChatGPT 学术优化(chatgpt_academic)」的新项目在 GitHub 上爆火,上线几天就在 GitHub 上狂揽上万 Star。项目地址:https://github.com/

vscode配置中文插件,带你无需注册体验ChatGPT!vscode配置中文插件,带你无需注册体验ChatGPT!Dec 16, 2022 pm 07:51 PM

​面对一夜爆火的 ChatGPT ,我最终也没抵得住诱惑,决定体验一下,不过这玩意要注册需要外国手机号以及科学上网,将许多人拦在门外,本篇博客将体验当下爆火的 ChatGPT 以及无需注册和科学上网,拿来即用的 ChatGPT 使用攻略,快来试试吧!

30行Python代码就可以调用ChatGPT API总结论文的主要内容30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。 阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键get用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键getApr 04, 2023 am 11:30 AM

ChatGPT可以联网后,OpenAI还火速介绍了一款代码生成器,在这个插件的加持下,ChatGPT甚至可以自己生成机器学习模型了。 ​上周五,OpenAI刚刚宣布了惊爆的消息,ChatGPT可以联网,接入第三方插件了!而除了第三方插件,OpenAI也介绍了一款自家的插件「代码解释器」,并给出了几个特别的用例:解决定量和定性的数学问题;进行数据分析和可视化;快速转换文件格式。此外,Greg Brockman演示了ChatGPT还可以对上传视频文件进行处理。而一位叫Andrew Mayne的畅销作

ChatGPT教我学习PHP中AOP的实现(附代码)ChatGPT教我学习PHP中AOP的实现(附代码)Mar 30, 2023 am 10:45 AM

本篇文章给大家带来了关于php的相关知识,其中主要介绍了我是怎么用ChatGPT学习PHP中AOP的实现,感兴趣的朋友下面一起来看一下吧,希望对大家有帮助。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境