大型语言模型(LLMS)出色,但它们的软磁性注意机制呈现了计算瓶颈。本文探讨了实现线性时间复杂性的替代方案。
SoftMax将相似性得分转换为概率,类似于K-Nearest邻居。
> Katharopoulos等人提出的线性注意力
巧妙地重写了SoftMax指数为内核函数,从而实现了线性计算。 转换如下所示:
elu(x) 1
>
当N>>> D,LLMS中的常见情况。 经常性的视图是:
> softmax的不可分割性阻止了这种线性化。 在解码过程中,仅S(N-1)需要跟踪,导致每个令牌o(d²)。但是,固定尺寸的S(n-1)限制了上下文保留。
>
存在各种门控函数(G),每个函数都会导致不同的模型:>门控函数的依赖性仅对当前令牌允许有效的并行处理。
状态空间模型(SSM)提供不同的视角,以处理CNNS过程图像等序列。 该模型是一个离散的线性时间不变系统:
这与卷积有关:
> H3使用两种互补的SSM层:
>
使用带有输出门控和卷积的选择性SSM:
结论
> Katharopoulos等。 (2020)
,,> fu等。 (2022),gu&dao(2023),
以上是线性关注的详细内容。更多信息请关注PHP中文网其他相关文章!