>本文探討了在Llama-3.2-1b語言模型中使用混合方法結合了軟馬克斯滑動窗口和線性注意力的混合方法,以替代軟瑪克斯自我發作。 這旨在提高推理速度而不會出現明顯的準確性損失,從而降低了使用大型語言模型的成本。 該項目基於“ LOLCAT:大型語言模型的低排名線性化”,“基於Mamba的語言模型的經驗研究”和“線性化注意”的研究。 它重點是在預先訓練的美洲駝模型中替換50%的自我發項層。
該過程分為四個部分:
注意轉移:
> lora finetuning:
低級別適應性(lora)用於微調較大的美洲駝模型中的雜種注意塊。 此步驟著重於訓練混合塊的參數,同時凍結其他參數,並使用Dolly-15K數據集優化文本生成模型。評估:
>結果表明,混合模型提供了顯著的速度改進,尤其是對於更長的序列,同時保持了MMLU基準測試的可比精度。 但是,該研究還強調了GPU硬件對速度和準確性測量的重大影響。 建議進一步的研究以探索不同硬件對基準結果的影響。
>
linearizing-llama-3.2-1b>。
[1] fineweb-edu:odc-by v1.0
[2] Dolly-15K:CC BY-SA 3.0
[3] MMLU:麻省理工學院許可
以上是線性化駱駝的詳細內容。更多資訊請關注PHP中文網其他相關文章!