搜尋
首頁科技週邊人工智慧70倍極致壓縮!大模型的檢查點再多也不怕

70倍極致壓縮!大模型的檢查點再多也不怕
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該論文的作者皆來自於華為諾亞實驗室,第一作者為李文碩,通訊作者為老櫞。相關團隊團隊近年來在ICML、CVPR、NeurIPS、ICCV、ECCV等頂會上有多項代表性工作發表,在高效大語言模型、視覺模型等領域都有豐富的成果產出,和知名大學和科學研究機構合作廣泛。

大模型作為當下 AI 工業界和學術界當之無愧的“流量之王”,吸引了大批學者和企業投入資源去研究與訓練。隨著規模越做越大,系統和工程問題就成了大模型訓練中繞不開的難題。例如在 Llama3.1 54 天的訓練裡,系統會崩潰 466 次,平均 2.78 小時一次!

70倍極致壓縮!大模型的檢查點再多也不怕

那麼,頻繁儲存檢查點就顯得十分必要。但儲存檢查點本身也是一個大工程。

70倍極致壓縮!大模型的檢查點再多也不怕

Meta 做了很多努力來加速儲存檢查點時間和增加儲存頻率,來對抗頻繁出現的系統失效。但頻繁儲存也意味著大量的儲存資源開銷,其訓練叢集配備了 240PB 的 SSD 來應對這項挑戰,光儲存這項的耗費就要億元!

華為諾亞的 ExCP 方法也就應運而生,為了應對存儲帶來的巨大開銷,他們提出了極致壓縮檢查點技術,能夠無損壓縮模型 70 倍,大幅降低訓練中的存儲開銷。

70倍極致壓縮!大模型的檢查點再多也不怕

70倍極致壓縮!大模型的檢查點再多也不怕

程式碼目前已經開源,在 Apache 2.0 框架下發布,issue 中已經有小夥伴成功復現了結果。

70倍極致壓縮!大模型的檢查點再多也不怕

  • 文章地址:https://arxiv.org/abs/2406.11257
  • 倉庫地址:https://github.com/Gaffey/Ex創新性,文章中提到了兩個重要的概念,一個是利用訓練中檢查點的殘差信息,通過時間序列上信息的稀疏性實現更高的剪枝比例;另一個是將優化器和權重聯合起來進行壓縮,實現整體的高壓縮率。

具體方法

70倍極致壓縮!大模型的檢查點再多也不怕

1. 檢查點殘差
化檢查迭代時梯度更新的總和,這部分是相對稀疏的,包含的資訊量較少,因此對這一殘差進行壓縮,可以獲得更好的壓縮比例。而與此相反的,優化器中儲存的動量是梯度一階矩和二階矩的滑動平均值,對於一階矩來說,它的滑動平均預設的參數是0.9,在數百到數千個迭代之後與上一次檢查點儲存的內容已經沒有太大的關聯,所以對於最佳化器直接壓縮本身的值而非殘差。最終待壓縮的檢查點表示為
2. 權重- 最佳化器動量聯合壓縮

目前已有的模型壓縮相關的工作一般只關注於模型的推理性能,或者是模型最終檢查點的大小,而不關注模型在整個訓練過程中對儲存空間的開銷。因而已有工作只對權重進行壓縮,而忽略了 Adam 等常見優化器中實際上儲存了兩倍於權重數量的動量。這項工作一方面將兩者一起進行了壓縮,顯著提升了整體的壓縮比例;另一方面也利用了權重和優化器動量的關聯性,進一步提升彼此的壓縮比例。

權重剪枝:由於剪枝的權重是殘差值,優化器動量的二階矩可以大致表示在過去一段時間內權重殘差值的變化幅度,所以可以使用優化器動量的二階矩作為指標來決定不同層的剪枝比例。剪枝策略如下文公式所示

70倍極致壓縮!大模型的檢查點再多也不怕式中,W 和70倍極致壓縮!大模型的檢查點再多也不怕分別表示權重和二階矩。


優化器動量剪枝:對於動量剪枝,可以使用一階矩作為指示器來進行剪枝,論文中有關於可收斂性的一個簡要證明。同時,如果一個位置的權重已經被剪枝,那麼對應位置的最佳化器動量也應該同步被處理,所以剪枝策略如下文公式所示

70倍極致壓縮!大模型的檢查點再多也不怕

式中,70倍極致壓縮!大模型的檢查點再多也不怕 表示一階矩。

3. 整體壓縮流程

整體壓縮流程如Algorithm 1 所示,依次進行計算權重殘差/ 聯合壓縮/ 非均勻量化/ 編碼壓縮等步驟,得到最終的壓縮結果。

70倍極致壓縮!大模型的檢查點再多也不怕

而恢復出檢查點完整文件的流程則如Algorithm 2 所示,進行解壓縮之後,首先從非均勻量化後儲存的碼本和下標中恢復出浮點結果,然後再與基準權重(上一個檢查點的原始權重或恢復出的重建權重)相加,得到檢查點完整檔案。而恢復出整個訓練流程中的檢查點檔案的流程如Algorithm 3 所示,在完成訓練後只保存初始化權重的隨機種子和每個檢查點儲存的壓縮結果,然後依序對檢查點進行恢復以獲得完整的檢查點序列,以供從其中選擇某個或多個檢查點恢復訓練/ 進行測試等。

實驗結果

文章中不僅對於大語言模型做了評估,在 ViT-L32 這樣的視覺模型上這一方法也能取得較大的效果。

70倍極致壓縮!大模型的檢查點再多也不怕

從消融實驗裡也可以看出,採用殘差剪枝的方法大大減少了剪枝帶來的損失。

70倍極致壓縮!大模型的檢查點再多也不怕

文章中也提供了大語言模型壓縮前後問答的範例,可以看到壓縮本身對於模型的問答能力也沒有造成損害。

70倍極致壓縮!大模型的檢查點再多也不怕

以上是70倍極致壓縮!大模型的檢查點再多也不怕的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。