搜尋
首頁科技週邊人工智慧減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

麻省理工學院和微軟進行了聯合研究,發現不需要額外的訓練即可提升大型語言模型的任務性能,並減小其大小

在大型模式時代,Transformer以其獨特的能力支撐起整個科學研究領域。自推出以來,基於Transformer的語言模型(LLM)在各種任務中展現出卓越的表現。 Transformer的底層架構已成為自然語言建模和推理的最先進技術,並在電腦視覺和強化學習等領域展現出強大的前景

然而,目前Transformer 架構非常龐大,通常需要大量運算資源來進行訓練和推理。 

這樣重寫:這樣做是有意義的,因為經過更多參數或資料訓練的Transformer顯然比其他模型更有能力。然而,越來越多的研究表明,基於Transformer的模型和神經網路不需要保留所有適應參數來保持其學習到的假設

一般而言,在訓練模型時,過度參數化似乎很有幫助,但這些模型在推理之前可以大幅剪枝。有研究表明,神經網路通常可以去除90%以上的權重,而效能不會有任何顯著下降。這一現象引發了研究者對於有助於模型推理的剪枝策略的研究興趣

來自MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer- Selective Rank Reduction 》中提出了一個令人驚訝的發現,即在Transformer 模型的特定層上進行仔細的剪枝可以顯著提高模型在某些任務的性能。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

  • 請點擊以下連結查看論文:https://arxiv.org/pdf/2312.13558.pdf

  • #論文首頁:https://pratyushasharma.github.io/laser/

本研究將這種簡單的干預措施稱為LASER(層選擇性降秩),透過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的性能。這種操作可以在模型訓練完成後進行,無需額外的參數或資料

在操作過程中,權重的減少是在模型特定的權重矩陣和層中進行的。這項研究還發現,許多類似的矩陣都可以顯著減少權重,並且通常在刪除超過90%的組件之前不會觀察到性能下降

該研究還發現這些減少可以顯著提高準確率,這項發現似乎不僅限於自然語言,在強化學習中也發現了表現提升。

此外,研究嘗試推斷高階元件中儲存的內容是什麼,以便進行刪除從而提高效能。研究發現經過LASER 回答正確的問題,但在幹預之前,原始模型主要用高頻詞(如“the”、“of” 等) 來回應,這些詞甚至與正確答案的語義類型都不相同,也就是說這些成分在未經幹預的情況下會導致模型產生一些不相干的高頻詞彙。

然而,透過進行一定程度的降秩後,模型的回答可以轉變為正確的。

為了理解這一點,研究也探討了其餘組件各自編碼的內容,他們僅使用其高階奇異向量來近似權重矩陣。結果發現這些組件描述了與正確答案相同語義類別的不同響應或通用高頻詞。

這些結果表明,當雜訊的高階分量與低階分量組合時,它們相互衝突的反應會產生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構和 LASER 遵循的程序。在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。

雷射概覽

對LASER介入進行了詳細介紹。單步LASER幹預透過三元組(τ, ℓ, ρ)來定義,其中包含參數τ、層數ℓ和降秩ρ。這些值共同描述了要被它們的低秩近似所取代的矩陣,以及近似的程度。研究者根據參數類型對他們將要幹預的矩陣類型進行分類

研究者重點關注W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由MLP 和注意力層中的矩陣組成。層數表示了研究者介入的層(第一層從 0 開始索引)。例如 Llama-2 有 32 層,因此 ℓ ∈ {0, 1, 2,・・・31}。

最終,ρ ∈ [0, 1) 描述了在做低秩近似時應該保留最大秩的哪一部分。例如設減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少,則該矩陣的最大秩為 d。研究者將它替換為⌊ρ・d⌋- 近似。

下圖 1 為 LASER 範例,該圖中,τ = U_in 和ℓ = L 表示在 L^th 層的 Transformer 區塊中來更新 MLP 第一層的權重矩陣。另一個參數控制 rank-k 近似中的 k。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

为了保持原意不变,需要将内容重新写成中文。而不需要出现原句

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先是 CounterFact 数据集上对 GPT-J 模型的分析。下图 2 展示了在 Transformer 架构中为每个矩阵应用不同数量降秩的结果对数据集分类损失的影响。其中每个 Transformer 层都由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

哪些事实会通过降秩恢复在数据集中成为研究者关注的问题。研究者发现,通过降秩恢复的事实在数据中很少出现,如图 3 所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

高阶组件存储了什么?研究者使用高阶组件来近似最终的权重矩阵,与LASER不同,它们不使用低阶组件来进行近似,如图5(a)所示。在使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案与预测答案之间的平均余弦相似度,如图5(b)所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

最后,研究者评估了自身发现对 3 种不同的 LLM 在多项语言理解任务上的普遍性。对于每项任务,他们通过生成准确度、分类准确度和损失三种指标来评估模型的性能。如上表 1 所示,即使降秩很大也不会导致模型准确度下降,却可以提升模型性能。

以上是減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能