首頁  >  文章  >  科技週邊  >  陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

王林
王林轉載
2023-10-12 14:29:04684瀏覽

只用3%的計算量5%的成本取得SOTA,統治了1B-3B規模的開源大模型。

這項成果來自普林斯頓陳丹琦團隊,名為LLM-Shearing大模型剪枝法。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

以羊駝LLaMA 2 7B為基礎,經由定向結構化剪枝得到1.3B和3B剪枝後的Sheared-LLama模型。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

在下游任務評估上超越先前的同等規模模型,需要進行重寫

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

一作夏夢舟表示, 「比從頭開始預訓練划算很多」。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

論文中也給出了剪枝後的Sheared-LLaMA輸出範例,表示儘管規模只有1.3B和2.7B,也已經能產生連貫且內容豐富的回覆.

相同的「扮演一個半導體產業分析師」任務,2.7B版本的回答結構上還要更清晰一些。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

團隊表示雖然目前只用Llama 2 7B版做了剪枝實驗,但此方法可以擴展到其他模型架構,也能擴展到任意規模

剪枝後的一個額外好處是,可以選擇優質的資料集進行繼續預訓練

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

有一些開發者表示,就在6個月前,幾乎所有人都認為65B以下的模型沒有任何實際用途

照這樣下去,我敢打賭1B-3B模型也能產生巨大價值,如果不是現在,也是不久以後。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

把剪枝當作約束優化

LLM-Shearing,具體來說是一種定向結構化剪枝,將一個大模型剪枝到指定的目標結構。

先前的修剪方法可能會導致模型效能下降,因為會刪除一些結構,影響其表達能力

透過將剪枝視為一種約束最佳化問題,我們提出了一種新的方法。我們透過學習剪枝遮罩矩陣來搜尋與指定結構相符的子網絡,並以最大化效能為目標

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

接下來對剪枝過的模型進行繼續預訓練,在一定程度上恢復剪枝造成的性能損失。

在這個階段,團隊發現剪枝過的模型與從頭訓練的模型對不同資料集的損失下降速率不一樣,產生資料使用效率低下的問題。

為此團隊提出了動態批次載入(Dynamic Batch Loading),根據模型在不同領域資料上的損失下降速率動態調整每個網域的數據所佔比例,提高數據使用效率。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

研究發現,儘管剪枝模型與從頭訓練的同等規模模型相比,初始表現較差,但透過持續預訓練可以迅速提升,並最終超越

這顯示從強大的基礎模型中剪枝,可以為繼續預訓練提供更好的初始化條件。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

將持續更新,來一個剪一個

論文作者分別為普林斯頓博士生夏夢舟 高天宇,清華Zhiyuan Zeng#,普林斯頓助理教授陳丹琦

夏夢舟,本科畢業於復旦,碩士畢業於CMU。

高天宇是一位​​畢業於清華大學的本科生,他在2019年獲得了清華特獎

兩人都是陳丹琦的學生,而陳丹琦目前是普林斯頓大學的助理教授,也是普林斯頓自然語言處理小組的共同領導者

最近在個人主頁中,陳丹琦更新了她的研究方向。

"這段時間主要專注於開發大型模型,研究的主題包括:"

  • #檢索如何在下一代模型中發揮重要作用,提高真實性、適應性、可解釋性和可信度。
  • 大模型的低成本訓練和部署,改善訓練方法、資料管理、模型壓縮和下游任務適應最佳化。
  • 也對真正增進對目前大模型功能和限制理解的工作感興趣,無論在經驗上還是理論上。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

Sheared-Llama已經在Hugging Face上提供

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

團隊表示,他們將繼續更新開源庫

更多大模型發佈時,來一個剪一個,持續發布高效能的小模型。

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

One More Thing

不得不說,現在大模型實在是太捲了。

孟夏夏季剛發布了一條更正,表示在寫論文時使用的是SOTA技術,但是論文完成後就被最新的Stable-LM-3B技術超越了

陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮

論文網址:https://arxiv.org/abs/2310.06694

Hugging Face:https://huggingface.co/princeton-nlp

專案首頁連結:https://xiamengzhou.github.io/sheared-llama/

以上是陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除