搜索
首页科技周边人工智能减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

麻省理工学院和微软进行了联合研究,发现不需要额外的训练即可提升大型语言模型的任务性能,并减小其大小

在大型模型时代,Transformer以其独特的能力支撑起整个科研领域。自推出以来,基于Transformer的语言模型(LLM)在各种任务中展现出卓越的性能。Transformer的底层架构已成为自然语言建模和推理的最先进技术,并在计算机视觉和强化学习等领域展现出强大的前景

然而,当前 Transformer 架构非常庞大,通常需要大量计算资源来进行训练和推理。 

这样重写:这样做是有意义的,因为经过更多参数或数据训练的Transformer显然比其他模型更有能力。然而,越来越多的研究表明,基于Transformer的模型和神经网络不需要保留所有适应参数来保持其学习到的假设

一般而言,在训练模型时,过度参数化似乎很有帮助,但这些模型在推理之前可以进行大幅剪枝。有研究表明,神经网络通常可以去除90%以上的权重,而性能不会有任何显著下降。这一现象引发了研究者对于有助于模型推理的剪枝策略的研究兴趣

来自 MIT、微软的研究者在论文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一个令人惊讶的发现,即在 Transformer 模型的特定层上进行仔细的剪枝可以显著提高模型在某些任务的性能。

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

  • 请点击以下链接查看论文:https://arxiv.org/pdf/2312.13558.pdf

  • 论文主页:https://pratyushasharma.github.io/laser/

该研究将这种简单的干预措施称为LASER(层选择性降秩),通过奇异值分解有选择地减少Transformer模型中特定层的学习权重矩阵的高阶分量,从而显著提高LLM的性能。这种操作可以在模型训练完成后进行,无需额外的参数或数据

在操作过程中,权重的减少是在模型特定的权重矩阵和层中进行的。这项研究还发现,许多类似的矩阵都可以显著减少权重,并且通常在删除超过90%的组件之前不会观察到性能下降

该研究还发现这些减少可以显著提高准确率,这一发现似乎不仅限于自然语言,在强化学习中也发现了性能提升。

此外,该研究尝试推断出高阶组件中存储的内容是什么,以便进行删除从而提高性能。该研究发现经过 LASER 回答正确的问题,但在干预之前,原始模型主要用高频词 (如 “the”、“of” 等) 来回应,这些词甚至与正确答案的语义类型都不相同,也就是说这些成分在未经干预的情况下会导致模型生成一些不相干的高频词汇。

然而,通过进行一定程度的降秩后,模型的回答可以转变为正确的。

为了理解这一点,该研究还探索了其余组件各自编码的内容,他们仅使用其高阶奇异向量来近似权重矩阵。结果发现这些组件描述了与正确答案相同语义类别的不同响应或通用高频词。

这些结果表明,当嘈杂的高阶分量与低阶分量组合时,它们相互冲突的响应会产生一种平均答案,这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。在这里,特定层的多层感知器(MLP)的权重矩阵被替换为其低秩近似。

激光概览

对LASER干预进行了详细介绍。单步LASER干预通过三元组(τ, ℓ, ρ)来定义,其中包含参数τ、层数ℓ和降秩ρ。这些值共同描述了要被它们的低秩近似所替代的矩阵,以及近似的程度。研究者根据参数类型对他们将要干预的矩阵类型进行分类

研究者重点关注 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩阵,它由 MLP 和注意力层中的矩阵组成。层数表示了研究者干预的层(第一层从 0 开始索引)。例如 Llama-2 有 32 层,因此 ℓ ∈ {0, 1, 2,・・・31}。

最终,ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少,则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。

下图 1 为 LASER 示例,该图中,τ = U_in 和ℓ = L 表示在 L^th 层的 Transformer 块中来更新 MLP 第一层的权重矩阵。另一个参数控制 rank-k 近似中的 k。

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显着的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

为了保持原意不变,需要将内容重新写成中文。而不需要出现原句

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先是 CounterFact 数据集上对 GPT-J 模型的分析。下图 2 展示了在 Transformer 架构中为每个矩阵应用不同数量降秩的结果对数据集分类损失的影响。其中每个 Transformer 层都由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

关于提升释义的准确度和稳健性,如上图2 和下表1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在CounterFact 数据集上的事实准确度从13.1% 增加到了24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

哪些事实会通过降秩恢复在数据集中成为研究者关注的问题。研究者发现,通过降秩恢复的事实在数据中很少出现,如图 3 所示

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

高阶组件存储了什么?研究者使用高阶组件来近似最终的权重矩阵,与LASER不同,它们不使用低阶组件来进行近似,如图5(a)所示。在使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案与预测答案之间的平均余弦相似度,如图5(b)所示

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

最后,研究者评估了自身发现对3 种不同的LLM 在多项语言理解任务上的普遍性。对于每项任务,他们通过生成准确度、分类准确度和损失三种指标来评估模型的性能。如上表 1 所示,即使降秩很大也不会导致模型准确度下降,却可以提升模型性能。

以上是减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能