线性关注

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2025-02-25 19:10:11110浏览

大型语言模型（LLMS）出色，但它们的软磁性注意机制呈现了计算瓶颈。本文探讨了实现线性时间复杂性的替代方案。

注意基础

>假设熟悉诸如Chatgpt和Transformers之类的LLM，我们专注于这些模型的核心。与将过去状态压缩到隐藏的向量的RNN不同，注意力选择性地检索了每个新查询的相关过去数据。变压器使用键（k），查询（q）和值（v）嵌入。注意机制与查询与取回值的键相匹配：

Linearizing Attention SoftMax将相似性得分转换为概率，类似于K-Nearest邻居。

单个注意力层的计算成本为：

Linearizing Attention

softmax的二次复杂性（O（n²））对于长序列（n＆gt;＆gt; 100k）而变得过于敏锐。

>

线性注意：解决方案？

> Katharopoulos等人提出的线性注意力

巧妙地重写了SoftMax指数为内核函数，从而实现了线性计算。转换如下所示：

Linearizing Attention elu(x) 1>

函数近似于指数。计算成本变为：

当N＆gt;＆gt;＆gt; D，LLMS中的常见情况。经常性的视图是： Linearizing Attention

> softmax的不可分割性阻止了这种线性化。在解码过程中，仅S Linearizing Attention （N-1）需要跟踪，导致每个令牌o（d²）。但是，固定尺寸的S（n-1）限制了上下文保留。封闭线性注意：战略记忆

通过选择性保留信息来解决内存限制，

封闭式线性注意力。关键更改是在S_N的配方中：

存在

存在各种门控函数（G），每个函数都会导致不同的模型：>

Linearizing Attention >门控函数的依赖性仅对当前令牌允许有效的并行处理。

状态空间模型：卷积方法

状态空间模型（SSM）提供不同的视角，以处理CNNS过程图像等序列。该模型是一个离散的线性时间不变系统： Linearizing Attention

Linearizing Attention 这与卷积有关：

Linearizing Attention > H3使用两种互补的SSM层：>

Linearizing Attention

选择性状态空间模型：数据依赖性动力学

SSMS的固定参数限制了适应性。选择性SSM通过使系统依赖于数据来解决此问题：

Mamba

使用带有输出门控和卷积的选择性SSM：

Linearizing Attention

Linearizing Attention 结论

>本文追踪了有效序列建模的演变，突出了计算效率和内存能力之间的权衡。 SoftMax的二次复杂性与线性注意力的效率形成鲜明对比，但后者的记忆有限导致封闭式的线性注意力和SSM。朝着数据依赖性模型（封闭线性注意力和选择性SSM）的进展强调了自适应信息保留的重要性。引用的论文中提出了进一步的阅读。

参考：

> Katharopoulos等。（2020）

， Yang等。（2023）

，> fu等。（2022），gu＆dao（2023）， Waleffe等。（2024）。（注意：简短省略了全文，但在原始输入中可用。 确认：（确认部分保持不变。）>

以上是线性关注的详细内容。更多信息请关注PHP中文网其他相关文章！

for Token function this input chatgpt excel Papers

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linearizing Llama下一篇：AI-Powered Information Extraction and Matchmaking

查看更多

线性关注

注意基础

>

封闭式线性注意力。 关键更改是在S_N的配方中：

SSMS的固定参数限制了适应性。选择性SSM通过使系统依赖于数据来解决此问题：

相关文章

封闭式线性注意力。关键更改是在S_N的配方中：