搜尋
首頁科技週邊人工智慧深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

大規模語言模型(LLMs)在許多重要任務中展現出了引人注目的能力,包括自然語言理解、語言生成和複雜推理,並對社會產生了深遠的影響。然而,這些出色的能力卻需要大量的訓練資源(如左圖)和較長的推理時間(如右圖)。因此,研究人員需要開發有效的技術手段來解決它們的效率問題。

此外,從圖的右邊還可以看出,一些高效率的LLMs(Language Models)如Mistral-7B,已經成功應用於LLMs的設計和部署。這些高效的LLMs在保持與LLaMA1-33B相近的準確性的同時,能夠大大減少推理記憶體使用和降低推理延遲。這顯示已經有一些可行的高效方法成功地應用於LLMs的設計和使用。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

在本篇綜述中,來自俄亥俄州立大學、帝國學院、密西根州立大學、密西根大學、亞馬遜、Google、Boson AI、微軟亞研院的研究者提供了對高效LLMs 研究的系統性全面調查。他們將現有優化 LLMs 效率的技術分成了三個類別,包括以模型為中心、以數據為中心和以框架為中心,總結並討論了當下最前沿的相關技術。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述


  • #論文:https://arxiv.org/abs/2312.03863
  • GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey 

##為了方便整理綜述中所涉及的論文,並保持更新,研究者創建了一個GitHub 倉庫,並積極維護。他們希望這個倉庫能夠幫助研究人員和從業者有系統地了解高效 LLMs 的研究和發展,並激發他們為這個重要而令人興奮的領域做出貢獻。

倉庫的網址是https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey。在這個倉庫中,你可以找到關於高效能低功耗機器學習系統的調查的相關內容。這個倉庫提供了一些研究論文、程式碼和文檔,幫助人們更好地了解和探索高效低功耗的機器學習系統。如果你對這個領域感興趣,可以透過造訪這個倉庫來獲取更多的資訊。

以模型為中心

以模型為中心的方法專注於演算法層面和系統層面的高效技術,其中模型本身是焦點。由於 LLMs 具有數十億甚至數萬億的參數,與規模較小的模型相比,它們具有諸如湧現等獨特的特徵,因此需要開發新的技術來優化 LLMs 的效率。本文詳細討論了五類以模型為中心的方法,包括模型壓縮、高效預訓練、高效微調、高效推理和高效模型架構設計

1. 壓縮模型 在機器學習領域,模型的大小通常是重要的考量。大型的模型往往需要更多的儲存空間和運算資源,而且在行動裝置上運行時可能會遇到限制。因此,壓縮模型是常用的技術,可以減少模型的大小

模型壓縮技術主要分為四類:量化、參數剪枝、低秩估計和知識蒸餾(參見下圖),其中量化會把模型的權重或者激活值從高精度壓縮到低精度,參數剪枝會搜索並刪除模型權重中較為冗餘的部分,低秩估計會將模型的權重矩陣轉換為若干低秩小矩陣的乘積,知識蒸餾則是直接用大模型來訓練小模型,使得小模型在做某些任務的時候具有取代大模型的能力。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

2. 高效能預訓練

#預訓練LLMs 的成本非常昂貴。高效預訓練旨在提高效率並降低 LLMs 預訓練過程的成本。高效能預訓練又可分為混合精度加速、模型縮放、初始化技術、最佳化策略和系統層級的加速。

混合精度加速透過使用低精度權重計算梯度、權重和激活值,然後在將其轉換回高精度並應用於更新原始權重,從而提高預訓練的效率。模型縮放透過使用小型模型的參數來擴展到大型模型,加速預訓練的收斂並降低訓練成本。初始化技術透過設計模型的初始化取值來加快模型的收斂速度。最佳化策略是重在設計輕量的最佳化器來降低模型訓練過程中的記憶體消耗,系統層級的加速則是透過分散式等技術來從系統層面加速模型的預訓練。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

3. 高效能微調

高效能微調旨在提高LLMs 微調過程的效率。常見的高效微調技術分為了兩類,一類是基於參數高效的微調,一類是基於記憶體高效的微調。

基於參數高效能微調(PEFT)的目標是透過凍結整個 LLM 主幹,僅更新一小組額外的參數,將 LLM 調整到下游任務。在論文中,我們又將 PEFT 詳細分成了基於適配器的微調、低秩適配、前綴微調和提示詞微調。

基於記憶體的高效微調則是重在降低整個 LLM 微調過程中的記憶體消耗,例如減少最佳化器狀態和啟動值等消耗的記憶體。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

4. 高效能推理

高效推理旨在提高LLMs 推理過程的效率。研究者將常見的高效推理技術分成了兩大類,一類是演算法層級的推理加速,一類是系統層級的推理加速。

演算法層級的推理加速又可以分成兩類:投機解碼和 KV - 快取最佳化。投機解碼透過使用較小的草稿模型並行計算令牌,為較大目標模型建立猜測性前綴,從而加速取樣過程。 KV - 快取最佳化指的是最佳化在 LLMs 推理過程中 Key-Value(KV)對的重複計算。

系統層級的推理加速則是在指定硬體上最佳化記憶體存取次數,增大演算法並行量等來加速 LLM 的推理。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

5. 高效能模型架構設計

對LLMs 進行高效架構設計是指透過策略性優化模型結構和計算過程,以提高效能和可擴展性,同時最小化資源消耗。我們將高效率的模型架構設計依據模型的種類分成了四大類:高效注意力模組、混合專家模型、長文本大模型以及可取代 transformer 的架構。

高效注意力模組旨在優化注意力模組中的複雜計算及記憶體佔用,混合專家模型(MoE)則是透過將LLMs 的某些模組的推理決策使用多個小的專家模型來替代從而達到整體的稀疏化,長文本大模型是專門設計來高效處理超長文本的LLMs, 可替代transformer 的架構則是透過重新設計模型架構,來降低模型的複雜度並達到後transformer 架構相當的推理能力。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

以資料為中心

#以資料為中心方法著重於資料的品質和結構在提高LLMs 效率方面的作用。研究者在本文中詳細討論了兩類以資料為中心的方法,包括資料選擇和提示詞工程

1. 資料選擇

#LLMs 的資料選擇旨在對預訓練/微調數據進行清洗和選擇,例如移除冗餘和無效數據,達到加快訓練過程的目的。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

#

2. 提示字工程

#提示字工程透過設計有效的輸入(提示字)來引導LLMs產生期望的輸出,它的高效之處在於可以透過設計提示詞,來達到和經過將繁瑣的微調相當的模型表現。研究者將常見的的提示詞工程技術分成了三大類:少樣本的提示詞工程、提示詞壓縮和提示詞生成。

少樣本的提示詞工程透過向 LLM 提供有限的範例集以引導其對需要執行的任務進行理解。提示詞壓縮是透過壓縮冗長的提示輸入或學習和使用提示表示,加速 LLMs 對輸入的處理。提示詞產生旨在自動建立有效的提示,引導模型產生具體且相關的回應,而不是使用手動標註的資料。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

以框架為中心

研究者調查了近來較為流行的高效LLMs 框架,並列舉了它們所能優化的高效任務,包括預訓練、微調和推理(如下圖)。

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述

總結

#在這份調查中,研究者為大家提供了一份關於高效LLMs 的系統性回顧,這是一個致力於使LLMs 更加民主化的重要研究領域。他們一開始就解釋了為什麼需要高效 LLMs。在一個有序的框架下,本文分別從以模型的中心、以資料的中心和以框架為中心的角度分別調查了 LLMs 的演算法層面和系統層面的高效技術。

研究者相信,在 LLMs 和以 LLMs 為導向的系統中,效率將發揮越來越重要的作用。他們希望這份調查能幫助研究人員和實踐者迅速進入這一領域,並成為激發新的高效 LLMs 研究的催化劑。

以上是深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境