参照人类大脑，学会忘记会让AI大模型变得更好？-人工智能-PHP中文网

首页

科技周边

人工智能

参照人类大脑，学会忘记会让AI大模型变得更好？

王林

Mar 12, 2024 pm 02:43 PM

人工智能ai大模型

参照人类大脑，学会忘记会让AI大模型变得更好？

最近，一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型，它们具有周期性遗忘已知信息的能力，这是现有大型语言模型所不具备的特点。

实测表明，在很多情况下，“忘却法”的训练效率很高，忘却型模型表现也会更好。韩国基础科学研究院（Institute for Basic Science）的AI工程师Jea Kwon说，新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数，它们之间相互连接，接收和传递信息，通过多层神经元的复杂运算来实现数据处理和学习。神经网络的这种模拟方式使得AI能够模拟人类大脑的工作方式，从而实现类似人类的智能行为。

最开始时信息流或多或少都是随机的，当网络不断与训练数据匹配，神经元之间流动的信息会不断优化。例如，如果研究人员想训练一个双语翻译模型，它首先要收集海量双语文本，用文本训练模型，它会调整神经元之间的连接，将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练需要大量计算资源。如果模型性能不佳，或者用户需求发生变化，模型可能无法满足需求。

研究人员Mikel Artetxe指出：“假设你有一个包含100种语言的模型，但其中有一种语言没有被包括进去。如果想要将这种语言加入模型，就必须重新进行训练。”

几年前，Artetxe和同事用1种语言训练神经网络，他们抹去神经网络所知的单词组成信息，也就是所谓的“Tokens”。Tokens存储在神经网络的第一层，它也叫“嵌入层”。对于其它层，不去理睬。抹去第1语言的Tokens之后，用第2种语言训练，第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息，但仍然可以用第2种语言重新训练，也就是说模型可以学习、处理第2种语言。研究人员认为，虽然嵌入层存储了第2种语言的语汇特殊信息，但神经网络更底层存储了抽象信息，它涉及到人类语言的幕后概念，正是这些概念帮助模型学习第二种语言。

研究报告作者陈一红认为：“我们生活在同一个世界，用不同语言的词汇来表达相同的概念。因此，在模型中会有相同级别的推理，比如一个苹果，它是甜的、美味的，它代表着不止是一个词汇。”

将新语言添加到已训练模型中，采用“忘却法”效率很高，尽管如此，还是需要重新训练，仍然需要海量数据和强大的处理能力。有没有更好的办法？当然有，不需要训练，直接抹去嵌入层，然后再训练，也就是在初步训练时周期性重置嵌入层。

Artetxe称：“如此一来，整个模型就能适应重置。如果你想扩展模型，让它适应另一种语言，过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验，采用周期性忘却技术训练，将它与那些用标准、非忘却方法训练的模型作比较。结果发现，在处理第1种语言时，忘却型模型得分85.1分，传统标准模型得分86.1分。再用第2种语言训练，只用约500万Tokens（第一种语言用了700亿）训练，忘却型模型的精准度得分降至62.7分，标准模型降到53.3分。

再训练时如果研究人员施加计算限制，忘却型模型的表现会更好。例如，当研究人员将训练长度从125000步短到5000步，忘却型模型的平均得分约为57.8分，标准模型降到37.2分，几乎和猜测差不多。

因此研究人员得出结论：在学习语言时，忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为：“因为模型在训练时不断忘却，然后再重新学习，所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示，模型理解语言时会从更深层次着眼，不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为：“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点，记住抽象信息，而且擅长推断。让AI像人类一样处理信息，比如让它具备忘却能力，AI也许会更有弹性。“

Yihong Chen认为，未来也许会出现制造语言模型的工厂，这样的工厂需要忘却型技术，它是一个基本模型，可以快速适应新领域。（小刀）

以上是参照人类大脑，学会忘记会让AI大模型变得更好？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

如何使用LM Studio在本地运行LLM？ - 分析VidhyaApr 19, 2025 am 11:38 AM

轻松在家运行大型语言模型：LM Studio 使用指南近年来，软件和硬件的进步使得在个人电脑上运行大型语言模型 (LLM) 成为可能。LM Studio 就是一个让这一过程变得轻松便捷的优秀工具。本文将深入探讨如何使用 LM Studio 在本地运行 LLM，涵盖关键步骤、潜在挑战以及在本地拥有 LLM 的优势。无论您是技术爱好者还是对最新 AI 技术感到好奇，本指南都将提供宝贵的见解和实用技巧。让我们开始吧！概述了解在本地运行 LLM 的基本要求。在您的电脑上设置 LM Studi