搜尋
首頁科技週邊人工智慧減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

麻省理工學院和微軟進行了聯合研究,發現不需要額外的訓練即可提升大型語言模型的任務性能,並減小其大小

在大型模式時代,Transformer以其獨特的能力支撐起整個科學研究領域。自推出以來,基於Transformer的語言模型(LLM)在各種任務中展現出卓越的表現。 Transformer的底層架構已成為自然語言建模和推理的最先進技術,並在電腦視覺和強化學習等領域展現出強大的前景

然而,目前Transformer 架構非常龐大,通常需要大量運算資源來進行訓練和推理。 

這樣重寫:這樣做是有意義的,因為經過更多參數或資料訓練的Transformer顯然比其他模型更有能力。然而,越來越多的研究表明,基於Transformer的模型和神經網路不需要保留所有適應參數來保持其學習到的假設

一般而言,在訓練模型時,過度參數化似乎很有幫助,但這些模型在推理之前可以大幅剪枝。有研究表明,神經網路通常可以去除90%以上的權重,而效能不會有任何顯著下降。這一現象引發了研究者對於有助於模型推理的剪枝策略的研究興趣

來自MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer- Selective Rank Reduction 》中提出了一個令人驚訝的發現,即在Transformer 模型的特定層上進行仔細的剪枝可以顯著提高模型在某些任務的性能。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

  • 請點擊以下連結查看論文:https://arxiv.org/pdf/2312.13558.pdf

  • #論文首頁:https://pratyushasharma.github.io/laser/

本研究將這種簡單的干預措施稱為LASER(層選擇性降秩),透過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的性能。這種操作可以在模型訓練完成後進行,無需額外的參數或資料

在操作過程中,權重的減少是在模型特定的權重矩陣和層中進行的。這項研究還發現,許多類似的矩陣都可以顯著減少權重,並且通常在刪除超過90%的組件之前不會觀察到性能下降

該研究還發現這些減少可以顯著提高準確率,這項發現似乎不僅限於自然語言,在強化學習中也發現了表現提升。

此外,研究嘗試推斷高階元件中儲存的內容是什麼,以便進行刪除從而提高效能。研究發現經過LASER 回答正確的問題,但在幹預之前,原始模型主要用高頻詞(如“the”、“of” 等) 來回應,這些詞甚至與正確答案的語義類型都不相同,也就是說這些成分在未經幹預的情況下會導致模型產生一些不相干的高頻詞彙。

然而,透過進行一定程度的降秩後,模型的回答可以轉變為正確的。

為了理解這一點,研究也探討了其餘組件各自編碼的內容,他們僅使用其高階奇異向量來近似權重矩陣。結果發現這些組件描述了與正確答案相同語義類別的不同響應或通用高頻詞。

這些結果表明,當雜訊的高階分量與低階分量組合時,它們相互衝突的反應會產生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構和 LASER 遵循的程序。在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。

雷射概覽

對LASER介入進行了詳細介紹。單步LASER幹預透過三元組(τ, ℓ, ρ)來定義,其中包含參數τ、層數ℓ和降秩ρ。這些值共同描述了要被它們的低秩近似所取代的矩陣,以及近似的程度。研究者根據參數類型對他們將要幹預的矩陣類型進行分類

研究者重點關注W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由MLP 和注意力層中的矩陣組成。層數表示了研究者介入的層(第一層從 0 開始索引)。例如 Llama-2 有 32 層,因此 ℓ ∈ {0, 1, 2,・・・31}。

最終,ρ ∈ [0, 1) 描述了在做低秩近似時應該保留最大秩的哪一部分。例如設減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少,則該矩陣的最大秩為 d。研究者將它替換為⌊ρ・d⌋- 近似。

下圖 1 為 LASER 範例,該圖中,τ = U_in 和ℓ = L 表示在 L^th 層的 Transformer 區塊中來更新 MLP 第一層的權重矩陣。另一個參數控制 rank-k 近似中的 k。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

为了保持原意不变,需要将内容重新写成中文。而不需要出现原句

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先是 CounterFact 数据集上对 GPT-J 模型的分析。下图 2 展示了在 Transformer 架构中为每个矩阵应用不同数量降秩的结果对数据集分类损失的影响。其中每个 Transformer 层都由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

哪些事实会通过降秩恢复在数据集中成为研究者关注的问题。研究者发现,通过降秩恢复的事实在数据中很少出现,如图 3 所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

高阶组件存储了什么?研究者使用高阶组件来近似最终的权重矩阵,与LASER不同,它们不使用低阶组件来进行近似,如图5(a)所示。在使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案与预测答案之间的平均余弦相似度,如图5(b)所示

減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少

最后,研究者评估了自身发现对 3 种不同的 LLM 在多项语言理解任务上的普遍性。对于每项任务,他们通过生成准确度、分类准确度和损失三种指标来评估模型的性能。如上表 1 所示,即使降秩很大也不会导致模型准确度下降,却可以提升模型性能。

以上是減少Transformer秩數以提高效能,同時保持移除特定層90%以上元件LLM不減少的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器