搜尋
首頁科技週邊人工智慧陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

只用3%的計算量5%的成本取得SOTA,統治了1B-3B規模的開源大模型。

這項成果來自普林斯頓陳丹琦團隊,名為LLM-Shearing大模型剪枝法。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

以羊駝LLaMA 2 7B為基礎,經由定向結構化剪枝得到1.3B和3B剪枝後的Sheared-LLama模型。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

在下游任務評估上超越先前的同等規模模型,需要進行重寫

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

一作夏夢舟表示, 「比從頭開始預訓練划算很多」。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

論文中也給出了剪枝後的Sheared-LLaMA輸出範例,表示儘管規模只有1.3B和2.7B,也已經能產生連貫且內容豐富的回覆.

相同的「扮演一個半導體產業分析師」任務,2.7B版本的回答結構上還要更清晰一些。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

團隊表示雖然目前只用Llama 2 7B版做了剪枝實驗,但此方法可以擴展到其他模型架構,也能擴展到任意規模

剪枝後的一個額外好處是,可以選擇優質的資料集進行繼續預訓練

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

有一些開發者表示,就在6個月前,幾乎所有人都認為65B以下的模型沒有任何實際用途

照這樣下去,我敢打賭1B-3B模型也能產生巨大價值,如果不是現在,也是不久以後。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

把剪枝當作約束優化

LLM-Shearing,具體來說是一種定向結構化剪枝,將一個大模型剪枝到指定的目標結構。

先前的修剪方法可能會導致模型效能下降,因為會刪除一些結構,影響其表達能力

透過將剪枝視為一種約束最佳化問題,我們提出了一種新的方法。我們透過學習剪枝遮罩矩陣來搜尋與指定結構相符的子網絡,並以最大化效能為目標

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

接下來對剪枝過的模型進行繼續預訓練,在一定程度上恢復剪枝造成的性能損失。

在這個階段,團隊發現剪枝過的模型與從頭訓練的模型對不同資料集的損失下降速率不一樣,產生資料使用效率低下的問題。

為此團隊提出了動態批次載入(Dynamic Batch Loading),根據模型在不同領域資料上的損失下降速率動態調整每個網域的數據所佔比例,提高數據使用效率。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

研究發現,儘管剪枝模型與從頭訓練的同等規模模型相比,初始表現較差,但透過持續預訓練可以迅速提升,並最終超越

這顯示從強大的基礎模型中剪枝,可以為繼續預訓練提供更好的初始化條件。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

將持續更新,來一個剪一個

論文作者分別為普林斯頓博士生夏夢舟 高天宇,清華Zhiyuan Zeng#,普林斯頓助理教授陳丹琦

夏夢舟,本科畢業於復旦,碩士畢業於CMU。

高天宇是一位​​畢業於清華大學的本科生,他在2019年獲得了清華特獎

兩人都是陳丹琦的學生,而陳丹琦目前是普林斯頓大學的助理教授,也是普林斯頓自然語言處理小組的共同領導者

最近在個人主頁中,陳丹琦更新了她的研究方向。

"這段時間主要專注於開發大型模型,研究的主題包括:"

  • #檢索如何在下一代模型中發揮重要作用,提高真實性、適應性、可解釋性和可信度。
  • 大模型的低成本訓練和部署,改善訓練方法、資料管理、模型壓縮和下游任務適應最佳化。
  • 也對真正增進對目前大模型功能和限制理解的工作感興趣,無論在經驗上還是理論上。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

Sheared-Llama已經在Hugging Face上提供

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

團隊表示,他們將繼續更新開源庫

更多大模型發佈時,來一個剪一個,持續發布高效能的小模型。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

One More Thing

不得不說,現在大模型實在是太捲了。

孟夏夏季剛發布了一條更正,表示在寫論文時使用的是SOTA技術,但是論文完成後就被最新的Stable-LM-3B技術超越了

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

論文網址:https://arxiv.org/abs/2310.06694

Hugging Face:https://huggingface.co/princeton-nlp

專案首頁連結:https://xiamengzhou.github.io/sheared-llama/

以上是陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元Apr 07, 2023 pm 02:57 PM

自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。然鹅,现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计,在1000多家受访美国企业中,用ChatGPT取代部分员工的,比例已达到惊人的48%。在这些企业中,有49%已经启用ChatGPT,还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道:相关话题还曾一度冲上了知乎热榜,众网友表示,不得不承认,现在ChatGPT等AIGC工具已势不可挡——浪潮既来,不进则退。有程序员还指出:用过Copil

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),