只用3%的計算量、5%的成本取得SOTA,統治了1B-3B規模的開源大模型。
這項成果來自普林斯頓陳丹琦團隊,名為LLM-Shearing大模型剪枝法。
以羊駝LLaMA 2 7B為基礎,經由定向結構化剪枝得到1.3B和3B剪枝後的Sheared-LLama模型。
在下游任務評估上超越先前的同等規模模型,需要進行重寫
一作夏夢舟表示, 「比從頭開始預訓練划算很多」。
論文中也給出了剪枝後的Sheared-LLaMA輸出範例,表示儘管規模只有1.3B和2.7B,也已經能產生連貫且內容豐富的回覆.
相同的「扮演一個半導體產業分析師」任務,2.7B版本的回答結構上還要更清晰一些。
團隊表示雖然目前只用Llama 2 7B版做了剪枝實驗,但此方法可以擴展到其他模型架構,也能擴展到任意規模。
剪枝後的一個額外好處是,可以選擇優質的資料集進行繼續預訓練
有一些開發者表示,就在6個月前,幾乎所有人都認為65B以下的模型沒有任何實際用途
照這樣下去,我敢打賭1B-3B模型也能產生巨大價值,如果不是現在,也是不久以後。
把剪枝當作約束優化
LLM-Shearing,具體來說是一種定向結構化剪枝,將一個大模型剪枝到指定的目標結構。
先前的修剪方法可能會導致模型效能下降,因為會刪除一些結構,影響其表達能力
透過將剪枝視為一種約束最佳化問題,我們提出了一種新的方法。我們透過學習剪枝遮罩矩陣來搜尋與指定結構相符的子網絡,並以最大化效能為目標
接下來對剪枝過的模型進行繼續預訓練,在一定程度上恢復剪枝造成的性能損失。
在這個階段,團隊發現剪枝過的模型與從頭訓練的模型對不同資料集的損失下降速率不一樣,產生資料使用效率低下的問題。
為此團隊提出了動態批次載入(Dynamic Batch Loading),根據模型在不同領域資料上的損失下降速率動態調整每個網域的數據所佔比例,提高數據使用效率。
研究發現,儘管剪枝模型與從頭訓練的同等規模模型相比,初始表現較差,但透過持續預訓練可以迅速提升,並最終超越
這顯示從強大的基礎模型中剪枝,可以為繼續預訓練提供更好的初始化條件。
將持續更新,來一個剪一個
論文作者分別為普林斯頓博士生夏夢舟、 高天宇,清華Zhiyuan Zeng#,普林斯頓助理教授陳丹琦。
夏夢舟,本科畢業於復旦,碩士畢業於CMU。
高天宇是一位畢業於清華大學的本科生,他在2019年獲得了清華特獎
兩人都是陳丹琦的學生,而陳丹琦目前是普林斯頓大學的助理教授,也是普林斯頓自然語言處理小組的共同領導者
最近在個人主頁中,陳丹琦更新了她的研究方向。
"這段時間主要專注於開發大型模型,研究的主題包括:"
- #檢索如何在下一代模型中發揮重要作用,提高真實性、適應性、可解釋性和可信度。
- 大模型的低成本訓練和部署,改善訓練方法、資料管理、模型壓縮和下游任務適應最佳化。
- 也對真正增進對目前大模型功能和限制理解的工作感興趣,無論在經驗上還是理論上。
Sheared-Llama已經在Hugging Face上提供
團隊表示,他們將繼續更新開源庫
更多大模型發佈時,來一個剪一個,持續發布高效能的小模型。
One More Thing
不得不說,現在大模型實在是太捲了。
孟夏夏季剛發布了一條更正,表示在寫論文時使用的是SOTA技術,但是論文完成後就被最新的Stable-LM-3B技術超越了
論文網址:https://arxiv.org/abs/2310.06694
Hugging Face:https://huggingface.co/princeton-nlp
專案首頁連結:https://xiamengzhou.github.io/sheared-llama/
以上是陳丹琦團隊創新之作:以5%成本取得SOTA,掀起「羊駝剪毛」大法熱潮的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

禪工作室 13.0.1
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境