>本文探讨了在Llama-3.2-1b语言模型中使用混合方法结合了软马克斯滑动窗口和线性注意力的混合方法,以替代软玛克斯自我发作。 这旨在提高推理速度而不会出现明显的准确性损失,从而降低了使用大型语言模型的成本。 该项目基于“ LOLCAT:大型语言模型的低排名线性化”,“基于Mamba的语言模型的经验研究”和“线性化注意”的研究。 它重点是在预先训练的美洲驼模型中替换50%的自我发项层。
该过程分为四个部分:
注意转移:
> lora finetuning:
低级别适应性(lora)用于微调较大的美洲驼模型中的杂种注意块。 此步骤着重于训练混合块的参数,同时冻结其他参数,并使用Dolly-15K数据集优化文本生成模型。评估:
>结果表明,混合模型提供了显着的速度改进,尤其是对于更长的序列,同时保持了MMLU基准测试的可比精度。 但是,该研究还强调了GPU硬件对速度和准确性测量的重大影响。 建议进一步的研究以探索不同硬件对基准结果的影响。
>
linearizing-llama-3.2-1b>。
[1] fineweb-edu:odc-by v1.0
[2] Dolly-15K:CC BY-SA 3.0
[3] MMLU:麻省理工学院许可
以上是线性化骆驼的详细内容。更多信息请关注PHP中文网其他相关文章!