首頁  >  文章  >  科技週邊  >  減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

WBOY
WBOY轉載
2024-01-13 21:51:06628瀏覽

麻省理工學院和微軟進行了聯合研究,發現不需要額外的訓練即可提升大型語言模型的任務性能,並減小其大小

在大型模式時代,Transformer以其獨特的能力支撐起整個科學研究領域。自推出以來,基於Transformer的語言模型(LLM)在各種任務中展現出卓越的表現。 Transformer的底層架構已成為自然語言建模和推理的最先進技術,並在電腦視覺和強化學習等領域展現出強大的前景

然而,目前Transformer 架構非常龐大,通常需要大量運算資源來進行訓練和推理。 

這樣重寫:這樣做是有意義的,因為經過更多參數或資料訓練的Transformer顯然比其他模型更有能力。然而,越來越多的研究表明,基於Transformer的模型和神經網路不需要保留所有適應參數來保持其學習到的假設

一般而言,在訓練模型時,過度參數化似乎很有幫助,但這些模型在推理之前可以大幅剪枝。有研究表明,神經網路通常可以去除90%以上的權重,而效能不會有任何顯著下降。這一現象引發了研究者對於有助於模型推理的剪枝策略的研究興趣

來自MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer- Selective Rank Reduction 》中提出了一個令人驚訝的發現,即在Transformer 模型的特定層上進行仔細的剪枝可以顯著提高模型在某些任務的性能。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

  • 請點擊以下連結查看論文:https://arxiv.org/pdf/2312.13558.pdf

  • #論文首頁:https://pratyushasharma.github.io/laser/

本研究將這種簡單的干預措施稱為LASER(層選擇性降秩),透過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的性能。這種操作可以在模型訓練完成後進行,無需額外的參數或資料

在操作過程中,權重的減少是在模型特定的權重矩陣和層中進行的。這項研究還發現,許多類似的矩陣都可以顯著減少權重,並且通常在刪除超過90%的組件之前不會觀察到性能下降

該研究還發現這些減少可以顯著提高準確率,這項發現似乎不僅限於自然語言,在強化學習中也發現了表現提升。

此外,研究嘗試推斷高階元件中儲存的內容是什麼,以便進行刪除從而提高效能。研究發現經過LASER 回答正確的問題,但在幹預之前,原始模型主要用高頻詞(如“the”、“of” 等) 來回應,這些詞甚至與正確答案的語義類型都不相同,也就是說這些成分在未經幹預的情況下會導致模型產生一些不相干的高頻詞彙。

然而,透過進行一定程度的降秩後,模型的回答可以轉變為正確的。

為了理解這一點,研究也探討了其餘組件各自編碼的內容,他們僅使用其高階奇異向量來近似權重矩陣。結果發現這些組件描述了與正確答案相同語義類別的不同響應或通用高頻詞。

這些結果表明,當雜訊的高階分量與低階分量組合時,它們相互衝突的反應會產生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構和 LASER 遵循的程序。在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。

雷射概覽

對LASER介入進行了詳細介紹。單步LASER幹預透過三元組(τ, ℓ, ρ)來定義,其中包含參數τ、層數ℓ和降秩ρ。這些值共同描述了要被它們的低秩近似所取代的矩陣,以及近似的程度。研究者根據參數類型對他們將要幹預的矩陣類型進行分類

研究者重點關注W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由MLP 和注意力層中的矩陣組成。層數表示了研究者介入的層(第一層從 0 開始索引)。例如 Llama-2 有 32 層,因此 ℓ ∈ {0, 1, 2,・・・31}。

最終,ρ ∈ [0, 1) 描述了在做低秩近似時應該保留最大秩的哪一部分。例如設減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少,則該矩陣的最大秩為 d。研究者將它替換為⌊ρ・d⌋- 近似。

下圖 1 為 LASER 範例,該圖中,τ = U_in 和ℓ = L 表示在 L^th 層的 Transformer 區塊中來更新 MLP 第一層的權重矩陣。另一個參數控制 rank-k 近似中的 k。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

为了保持原意不变,需要将内容重新写成中文。而不需要出现原句

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先是 CounterFact 数据集上对 GPT-J 模型的分析。下图 2 展示了在 Transformer 架构中为每个矩阵应用不同数量降秩的结果对数据集分类损失的影响。其中每个 Transformer 层都由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

哪些事实会通过降秩恢复在数据集中成为研究者关注的问题。研究者发现,通过降秩恢复的事实在数据中很少出现,如图 3 所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

高阶组件存储了什么?研究者使用高阶组件来近似最终的权重矩阵,与LASER不同,它们不使用低阶组件来进行近似,如图5(a)所示。在使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案与预测答案之间的平均余弦相似度,如图5(b)所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

最后,研究者评估了自身发现对 3 种不同的 LLM 在多项语言理解任务上的普遍性。对于每项任务,他们通过生成准确度、分类准确度和损失三种指标来评估模型的性能。如上表 1 所示,即使降秩很大也不会导致模型准确度下降,却可以提升模型性能。

以上是減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除