在大型模式時代,Transformer獨自支撐了整個科學研究領域。自從發布以來,基於Transformer的語言模型在各種任務上展現出了出色的性能,在自然語言建模和推理方面的底層Transformer架構已經成為最先進的技術,在計算機視覺和強化學習等領域也顯示出了強大的前景
目前的Transformer 架構非常龐大,通常需要大量的運算資源來進行訓練和推理
##這是有意為之的,因為經過更多參數或資料訓練的Transformer 顯然比其他模型更有能力。儘管如此,越來越多的工作表明,基於 Transformer 的模型以及神經網路不需要所有擬合參數來保留其學到的假設。
一般來說,在訓練模型時大規模過度參數化似乎有幫助,但這些模型在推理之前可以進行大幅剪枝;研究表明,神經網路通常可以去除90 %以上的權重,而性能不會有明顯下降。這種現象促使研究者開始轉向研究有助於模型推理的剪枝策略
來自麻省理工學院和微軟的研究人員在一篇名為《真相就在其中:透過層選擇性排名減少提高語言模型的推理能力》的論文中提出了一個令人驚訝的發現。他們發現,在Transformer模型的特定層進行精細的剪枝可以顯著提高模型在某些任務上的表現
- 論文網址:https://arxiv.org/pdf/2312.13558.pdf
- 論文首頁:https://pratyushasharma.github.io/laser/
#研究中將這種簡單的介入措施稱為LASER(LAyer SElective Rank reduction,層選擇性降秩)。它透過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的性能。這種操作可以在模型訓練完成後進行,而無需額外的參數或資料
在操作過程中,權重的減少是透過對模型特定的權重矩陣和層進行執行的。研究還發現,許多類似的矩陣都能夠顯著地減少權重,並且在刪除超過90%的組件之前,通常不會觀察到性能下降
研究還發現,減少這些因素可以顯著提高準確率。有趣的是,這項發現不僅適用於自然語言,對於強化學習也能提升表現
此外,這項研究試圖推論儲存在高階元件中的內容,以便透過刪除來提高效能。研究發現,在使用LASER回答問題後,原始模型主要使用高頻詞(如「the」、「of」等)來回應。這些詞與正確答案的語義類型甚至不相符,也就是說在沒有乾預的情況下,這些成分會導致模型生成一些不相關的高頻詞彙
然而,透過進行一定程度的降秩後,模型的回答可以轉換成正確的。
為了理解這一點,研究也探討了其餘組件各自編碼的內容,他們僅使用其高階奇異向量來近似權重矩陣。結果發現這些組件描述了與正確答案相同語義類別的不同響應或通用高頻詞。
這些結果表明,當雜訊的高階分量與低階分量組合時,它們相互衝突的反應會產生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構和 LASER 遵循的程序。在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。
LASER 概覽
研究者對LASER介入進行了詳細介紹。單步LASER幹預是透過三個參數(τ、ℓ和ρ)來定義的。這些參數共同描述了要被低秩近似取代的矩陣以及近似的程度。研究者根據參數類型對待幹預的矩陣進行分類
研究者關注的重點是矩陣W = {W_q, W_k, W_v, W_o, U_in, U_out},該矩陣由多層感知機(MLP)和注意力層中的矩陣組成。層數表示研究者介入的層級,其中第一層的索引是0。例如,Llama-2有32個層級,因此表示為 ℓ ∈ {0, 1, 2,・・・31}#
最终,ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设,则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。
以下是需要 在下图1中,展示了一个LASER的示例。图中的符号τ = U_in和ℓ = L表示在第L层的Transformer块中更新MLP的第一层权重矩阵。还有一个参数用于控制rank-k近似中的k值
LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预。
LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。
实验结果
在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。
首先,我们对 GPT-J 模型在 CounterFact 数据集上进行了分析。图 2 展示了在 Transformer 架构中,将不同数量的降秩应用于每个矩阵后,对数据集分类损失的影响。每个 Transformer 层由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同颜色表示移除组件的不同百分比
关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。
哪些事实在进行降秩恢复时会得到恢复?研究者发现,通过降秩恢复得到的事实很可能在数据集中出现的次数非常少,如图3所示
高阶组件存储什么呢?研究者使用高阶组件近似最终的权重矩阵(而不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。当使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案相对于预测答案的平均余弦相似度,如下图 5 (b) 所示。
研究者最终对他们发现的三种不同的LLM在多项语言理解任务上的普适性进行了评估。对于每个任务,他们使用生成准确度、分类准确度和损失三个指标来评估模型的性能。根据表1的结果显示,即使矩阵的秩降低很大,也不会导致模型准确度下降,反而能提升模型的性能
以上是Transformer模型降維減少,移除90%以上特定層的元件時,LLM性能保持不變的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版
中文版,非常好用

WebStorm Mac版
好用的JavaScript開發工具