搜索
首页科技周边人工智能陈丹琦团队创新之作:以5%成本取得SOTA,掀起'羊驼剪毛”大法热潮

只用3%的计算量5%的成本取得SOTA,统治了1B-3B规模的开源大模型。

这一成果来自普林斯顿陈丹琦团队,名为LLM-Shearing大模型剪枝法。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

以羊驼LLaMA 2 7B为基础,通过定向结构化剪枝得到1.3B和3B剪枝后的Sheared-LLama模型。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

在下游任务评估上超越之前的同等规模模型,需要进行重写

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

一作夏梦舟表示,“比从头开始预训练划算很多”。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

论文中也给出了剪枝后的Sheared-LLaMA输出示例,表示尽管规模只有1.3B和2.7B,也已经能生成连贯且内容丰富的回复。

相同的“扮演一个半导体行业分析师”任务,2.7B版本的回答结构上还要更清晰一些。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

团队表示虽然目前只用Llama 2 7B版做了剪枝实验,但该方法可以扩展到其他模型架构,也能扩展到任意规模

剪枝后的一个额外好处是,可以选择优质的数据集进行继续预训练

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

有一些开发者表示,就在6个月前,几乎所有人都认为65B以下的模型没有任何实际用途

照这样下去,我敢打赌1B-3B模型也能产生巨大价值,如果不是现在,也是不久以后。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

把剪枝当做约束优化

LLM-Shearing,具体来说是一种定向结构化剪枝,将一个大模型剪枝到指定的目标结构。

之前的修剪方法可能会导致模型性能下降,因为会删除一些结构,影响其表达能力

通过将剪枝视为一种约束优化问题,我们提出了一种新的方法。我们通过学习剪枝掩码矩阵来搜索与指定结构匹配的子网络,并以最大化性能为目标

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

接下来对剪枝过的模型进行继续预训练,在一定程度上恢复剪枝造成的性能损失。

在这个阶段,团队发现剪枝过的模型与从头训练的模型对不同数据集的损失下降速率不一样,产生数据使用效率低下的问题。

为此团队提出了动态批量加载(Dynamic Batch Loading),根据模型在不同域数据上的损失下降速率动态调整每个域的数据所占比例,提高数据使用效率。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

研究发现,尽管剪枝模型与从头训练的同等规模模型相比,初始性能较差,但通过持续预训练可以迅速提升,并最终超越

这表明从强大的基础模型中剪枝,可以为继续预训练提供更好的初始化条件。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

将持续更新,来一个剪一个

论文作者分别为普林斯顿博士生夏梦舟高天宇,清华Zhiyuan Zeng,普林斯顿助理教授陈丹琦

夏梦舟,本科毕业于复旦,硕士毕业于CMU。

高天宇是一位毕业于清华大学的本科生,他在2019年获得了清华特奖

两人都是陈丹琦的学生,而陈丹琦目前是普林斯顿大学的助理教授,也是普林斯顿自然语言处理小组的共同领导者

最近在个人主页中,陈丹琦更新了她的研究方向。

"这段时间主要专注于开发大型模型,研究的主题包括:"

  • 检索如何在下一代模型中发挥重要作用,提高真实性、适应性、可解释性和可信度。
  • 大模型的低成本训练和部署,改进训练方法、数据管理、模型压缩和下游任务适应优化。
  • 还对真正增进对当前大模型功能和局限性理解的工作感兴趣,无论在经验上还是理论上。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

Sheared-Llama已经在Hugging Face上提供

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

团队表示,他们将继续更新开源库

更多大模型发布时,来一个剪一个,持续发布高性能的小模型。

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

One More Thing

不得不说,现在大模型实在是太卷了。

孟州夏刚刚发布了一条更正,表示在写论文时使用的是SOTA技术,但是论文完成后就被最新的Stable-LM-3B技术超越了

陈丹琦团队创新之作:以5%成本取得SOTA,掀起羊驼剪毛”大法热潮

论文地址:https://arxiv.org/abs/2310.06694

Hugging Face:https://huggingface.co/princeton-nlp

项目主页链接:https://xiamengzhou.github.io/sheared-llama/

以上是陈丹琦团队创新之作:以5%成本取得SOTA,掀起'羊驼剪毛”大法热潮的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

多动症游戏,健康工具和AI聊天机器人如何改变全球健康多动症游戏,健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入:获胜者,失败者和机遇没有关于AI的投入:获胜者,失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹(Joseph Stiglitz约瑟夫·斯蒂格利兹(Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

什么是图形数据库?什么是图形数据库?Apr 14, 2025 am 11:19 AM

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由:策略,技术和Python实施LLM路由:策略,技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型(LLM)路由:通过智​​能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。