搜尋
首頁科技週邊人工智慧70倍極致壓縮!大模型的檢查點再多也不怕

70倍極致壓縮!大模型的檢查點再多也不怕
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該論文的作者皆來自於華為諾亞實驗室,第一作者為李文碩,通訊作者為老櫞。相關團隊團隊近年來在ICML、CVPR、NeurIPS、ICCV、ECCV等頂會上有多項代表性工作發表,在高效大語言模型、視覺模型等領域都有豐富的成果產出,和知名大學和科學研究機構合作廣泛。

大模型作為當下 AI 工業界和學術界當之無愧的“流量之王”,吸引了大批學者和企業投入資源去研究與訓練。隨著規模越做越大,系統和工程問題就成了大模型訓練中繞不開的難題。例如在 Llama3.1 54 天的訓練裡,系統會崩潰 466 次,平均 2.78 小時一次!

70倍極致壓縮!大模型的檢查點再多也不怕

那麼,頻繁儲存檢查點就顯得十分必要。但儲存檢查點本身也是一個大工程。

70倍極致壓縮!大模型的檢查點再多也不怕

Meta 做了很多努力來加速儲存檢查點時間和增加儲存頻率,來對抗頻繁出現的系統失效。但頻繁儲存也意味著大量的儲存資源開銷,其訓練叢集配備了 240PB 的 SSD 來應對這項挑戰,光儲存這項的耗費就要億元!

華為諾亞的 ExCP 方法也就應運而生,為了應對存儲帶來的巨大開銷,他們提出了極致壓縮檢查點技術,能夠無損壓縮模型 70 倍,大幅降低訓練中的存儲開銷。

70倍極致壓縮!大模型的檢查點再多也不怕

70倍極致壓縮!大模型的檢查點再多也不怕

程式碼目前已經開源,在 Apache 2.0 框架下發布,issue 中已經有小夥伴成功復現了結果。

70倍極致壓縮!大模型的檢查點再多也不怕

  • 文章地址:https://arxiv.org/abs/2406.11257
  • 倉庫地址:https://github.com/Gaffey/Ex創新性,文章中提到了兩個重要的概念,一個是利用訓練中檢查點的殘差信息,通過時間序列上信息的稀疏性實現更高的剪枝比例;另一個是將優化器和權重聯合起來進行壓縮,實現整體的高壓縮率。

具體方法

70倍極致壓縮!大模型的檢查點再多也不怕

1. 檢查點殘差
化檢查迭代時梯度更新的總和,這部分是相對稀疏的,包含的資訊量較少,因此對這一殘差進行壓縮,可以獲得更好的壓縮比例。而與此相反的,優化器中儲存的動量是梯度一階矩和二階矩的滑動平均值,對於一階矩來說,它的滑動平均預設的參數是0.9,在數百到數千個迭代之後與上一次檢查點儲存的內容已經沒有太大的關聯,所以對於最佳化器直接壓縮本身的值而非殘差。最終待壓縮的檢查點表示為
2. 權重- 最佳化器動量聯合壓縮

目前已有的模型壓縮相關的工作一般只關注於模型的推理性能,或者是模型最終檢查點的大小,而不關注模型在整個訓練過程中對儲存空間的開銷。因而已有工作只對權重進行壓縮,而忽略了 Adam 等常見優化器中實際上儲存了兩倍於權重數量的動量。這項工作一方面將兩者一起進行了壓縮,顯著提升了整體的壓縮比例;另一方面也利用了權重和優化器動量的關聯性,進一步提升彼此的壓縮比例。

權重剪枝:由於剪枝的權重是殘差值,優化器動量的二階矩可以大致表示在過去一段時間內權重殘差值的變化幅度,所以可以使用優化器動量的二階矩作為指標來決定不同層的剪枝比例。剪枝策略如下文公式所示

70倍極致壓縮!大模型的檢查點再多也不怕式中,W 和70倍極致壓縮!大模型的檢查點再多也不怕分別表示權重和二階矩。


優化器動量剪枝:對於動量剪枝,可以使用一階矩作為指示器來進行剪枝,論文中有關於可收斂性的一個簡要證明。同時,如果一個位置的權重已經被剪枝,那麼對應位置的最佳化器動量也應該同步被處理,所以剪枝策略如下文公式所示

70倍極致壓縮!大模型的檢查點再多也不怕

式中,70倍極致壓縮!大模型的檢查點再多也不怕 表示一階矩。

3. 整體壓縮流程

整體壓縮流程如Algorithm 1 所示,依次進行計算權重殘差/ 聯合壓縮/ 非均勻量化/ 編碼壓縮等步驟,得到最終的壓縮結果。

70倍極致壓縮!大模型的檢查點再多也不怕

而恢復出檢查點完整文件的流程則如Algorithm 2 所示,進行解壓縮之後,首先從非均勻量化後儲存的碼本和下標中恢復出浮點結果,然後再與基準權重(上一個檢查點的原始權重或恢復出的重建權重)相加,得到檢查點完整檔案。而恢復出整個訓練流程中的檢查點檔案的流程如Algorithm 3 所示,在完成訓練後只保存初始化權重的隨機種子和每個檢查點儲存的壓縮結果,然後依序對檢查點進行恢復以獲得完整的檢查點序列,以供從其中選擇某個或多個檢查點恢復訓練/ 進行測試等。

實驗結果

文章中不僅對於大語言模型做了評估,在 ViT-L32 這樣的視覺模型上這一方法也能取得較大的效果。

70倍極致壓縮!大模型的檢查點再多也不怕

從消融實驗裡也可以看出,採用殘差剪枝的方法大大減少了剪枝帶來的損失。

70倍極致壓縮!大模型的檢查點再多也不怕

文章中也提供了大語言模型壓縮前後問答的範例,可以看到壓縮本身對於模型的問答能力也沒有造成損害。

70倍極致壓縮!大模型的檢查點再多也不怕

以上是70倍極致壓縮!大模型的檢查點再多也不怕的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
python中的可變與不變的物體 - 分析vidhyapython中的可變與不變的物體 - 分析vidhyaApr 13, 2025 am 09:15 AM

介紹 Python是一種面向對象的編程語言(或OOPS)。在我的上一篇文章中,我們探索了它的多功能性質。因此,Python提供了多種數據類型,可以將其廣泛分為M

11 YouTube頻道免費學習Tableau -Analytics Vidhya11 YouTube頻道免費學習Tableau -Analytics VidhyaApr 13, 2025 am 09:14 AM

介紹 Tableau被認為是全球公司和個人目前正在使用的最強大的數據可視化工具之一,用於有效的數據分析和呈現。具有用戶友好的界面並擴展

10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)