为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度学习中的主导模型,但人们对于它卓越性能的理论基础却一直研究不足。
最近,谷歌AI、苏黎世联邦理工学院和谷歌DeepMind的研究人员进行了一项新研究,试图揭开谷歌AI中的一些优化算法的秘密。在这项研究中,他们对transformer进行了逆向工程,并找到了一些优化方法。这篇论文名为《揭示transformer中的Mesa优化算法》
论文链接:https://arxiv.org/abs/2309.05858
作者证明,最小化通用自回归损失会产生在 Transformer 的前向传递中运行的基于辅助梯度的优化算法。这种现象最近被称为「mesa 优化(mesa-optimization)」。此外,研究人员发现所得的 mesa 优化算法表现出上下文中的小样本学习能力,与模型规模无关。因此,新的结果对此前大语言模型中出现的小样本学习的原理进行了补充。
研究人员认为,Transformers 的成功是基于其在前向传递中实现的Mesa优化算法的架构偏差:(i) 定义内部学习目标,以及 (ii) 对其进行优化
图 1:新假设的说明:优化自回归 Transformer fθ 的权重 θ 会产生在模型前向传播中实现的 mesa 优化算法。作为输入序列 s_1, . 。。, s_t 被处理到时间步 t,Transformer (i) 创建一个由输入 - 目标关联对组成的内部训练集,(ii) 通过结果数据集定义内部目标函数,用于衡量内部模型的性能 使用权重 W,(iii) 优化该目标并使用学习的模型生成未来的预测。
该研究的贡献包括以下几点:
基于最近人们的工作表明,经过明确训练来解决上下文中的小样本任务的 transformer 可以实现梯度下降(GD)算法。在这里,作者展示了这些结果可以推广到自回归序列建模 —— 这是训练 LLM 的典型方法。
首先,对于在简单线性动力学上进行训练的Transformer进行分析。在这种情况下,每个序列都由不同的W*生成,以防止跨序列记忆。在这个简单的设定中,研究人员展示了Transformer如何创建mesa数据集,并使用预处理的GD来优化mesa目标
进行重写的内容是:我们可以通过训练深度 transformer 来聚合相邻序列元素的 token 结构。有趣的是,这种简单的预处理方法会导致权重矩阵非常稀疏(只有不到 1% 的权重非零),从而产生逆向工程算法
对于单层线性自注意力,权重对应一个梯度下降步骤。对于深度Transformer,解释性变得困难。该研究依赖于线性探测并检查隐藏激活是否能够预测自回归目标或预处理输入
有趣的是,两种探测方法的可预测性都会随着网络深度的增加而逐渐提高。这一发现表明模型中隐藏着预处理的 GD。
图 2:对经过训练的线性自注意力层进行逆向工程。
该研究发现,在构建中使用所有自由度时,可以完美地拟合训练层,不仅包括学习的学习率 η,还包括一组学习的初始权重 W_0。重要的是,如图 2 所示,学得的 one-step 算法的性能仍然远远优于单个 mesa 层。
在简单的权重设置下,我们可以注意到,通过基础优化很容易发现,该层可以最优地解决此研究任务。这个结果证明了硬编码归纳偏差对于mesa优化是有利的
凭借对多层案例的理论见解,先分析深度线性和 softmax 仅注意 Transformer。作者根据 4 通道结构设置输入格式,,这对应于选择 W_0 = 0。
与单层模型一样,作者在训练模型的权重中看到了清晰的结构。作为第一个逆向工程分析,该研究利用这个结构并构建一个算法(RevAlg-d,其中 d 表示层数),每个层头包含 16 个参数(而不是 3200 个)。作者发现这种压缩但复杂的表达式可以描述经过训练的模型。特别是,它允许以几乎无损的方式在实际 Transformer 和 RevAlg-d 权重之间进行插值
虽然 RevAlg-d 表达式解释了具有少量自由参数的经过训练的多层 Transformer,但很难将其解释为 mesa 优化算法。因此,作者采用线性回归探测分析(Alain & Bengio,2017;Akyürek et al.,2023)来寻找假设的 mesa 优化算法的特征。
在图3中展示的深度线性自注意力Transformer上,我们可以观察到两个探针都能够进行线性解码,并且随着序列长度和网络深度的增加,解码性能也增加。因此,我们发现了一种基础优化算法,该算法在原始的mesa-objective Lt (W)的基础上逐层下降,同时改善了mesa优化问题的条件数。这导致mesa-objective Lt (W)快速下降。此外,我们还可以观察到随着深度增加,性能显著提高
通过对数据进行更好的预处理,可以逐步(跨层)优化自回归目标函数 Lt (W),因此可以认为快速下降是通过这种优化实现的
图 3:对构建的 token 输入进行逆向工程的多层 Transformer 训练。
这表明,如果 transformer 在构建的 token 上进行训练,它就会通过 mesa 优化进行预测。有趣的是,当直接给出序列元素时,transformer 会自行通过对元素进行分组来构造 token,研究团队将其称为「创建 mesa 数据集」。
这项研究的发现是,当使用Transformer模型在标准自回归目标下进行序列预测任务的训练时,可以开发出基于梯度的推理算法。因此,最新的多任务和元学习结果也可以应用到传统的自监督LLM训练设置中
此外,研究还发现,学习得到的自回归推理算法可以在不需要重新训练的情况下重新调整使用,以解决有监督的上下文学习任务,从而在一个统一的框架内解释结果
那么,这些与上下文学习有什么关系呢?根据该研究,训练transformer模型后,在自回归序列任务上,它实现了适当的mesa优化,因此可以进行少样本上下文学习,而无需进行任何微调
该研究假设 LLM 也存在 mesa 优化,从而提高了其上下文学习能力。有趣的是,该研究还观察到,为 LLM 有效调整 prompt 也可以带来上下文学习能力的实质性改进。
感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上是Transformer的上下文学习能力的来源是什么?的详细内容。更多信息请关注PHP中文网其他相关文章!