线性化骆驼

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2025-02-25 18:38:08167浏览

>本文探讨了在Llama-3.2-1b语言模型中使用混合方法结合了软马克斯滑动窗口和线性注意力的混合方法，以替代软玛克斯自我发作。这旨在提高推理速度而不会出现明显的准确性损失，从而降低了使用大型语言模型的成本。该项目基于“ LOLCAT：大型语言模型的低排名线性化”，“基于Mamba的语言模型的经验研究”和“线性化注意”的研究。它重点是在预先训练的美洲驼模型中替换50％的自我发项层。

该过程分为四个部分：>

本节详细介绍了使用可学习的因素来平衡其贡献的自定义注意块，该定制注意力块结合了滑动窗口和线性注意机制。滑动窗口方法将注意力限制在指定的窗口大小上，从而提高效率。线性注意，应用于较早的令牌，进一步优化了计算。

注意转移：

此阶段利用“ lolcats”方法。原始Llama注意块的权重用于初始化混合块。训练涉及通过训练输入的前向通行证，计算原始块和混合块输出之间的MSE损失，并对混合块进行微调以模仿原始的行为。

> lora finetuning：

低级别适应性（lora）用于微调较大的美洲驼模型中的杂种注意块。此步骤着重于训练混合块的参数，同时冻结其他参数，并使用Dolly-15K数据集优化文本生成模型。

评估：与原始Llama-3.2-1b模型评估混合模型的性能。基准测试侧重于推理速度（令牌每秒和秒）和准确性（使用MMLU基准测试）。

>结果表明，混合模型提供了显着的速度改进，尤其是对于更长的序列，同时保持了MMLU基准测试的可比精度。但是，该研究还强调了GPU硬件对速度和准确性测量的重大影响。建议进一步的研究以探索不同硬件对基准结果的影响。

Linearizing Llama

Linearizing Llama 结论强调了混合注意机制作为提高LLM推理速度的成本效益方法的潜力。该研究还指出，在评估模型性能时，需要进一步优化线性注意体系结构以及考虑硬件限制的重要性。该项目的代码可在

linearizing-llama-3.2-1b>。

>许可参考：

[1] fineweb-edu：odc-by v1.0 [2] Dolly-15K：CC BY-SA 3.0 [3] MMLU：麻省理工学院许可

以上是线性化骆驼的详细内容。更多信息请关注PHP中文网其他相关文章！

for while Token using this input llama Other

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Developing an AI-Powered Smart Guide for Business Planning & Entrepreneurship下一篇：Linearizing Attention

查看更多