首頁  >  文章  >  科技週邊  >  10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

WBOY
WBOY轉載
2023-09-20 15:49:01784瀏覽
包括僅解碼器結構(如GPT 和LLAMA 系列模型)、僅編碼器結構(如BERT)和編碼器- 解碼器結構(如T5)以及它們的變體模型在內的大型語言模型(LLM )已經取得了非凡的成功,並已被廣泛用於各種語言處理和多模態任務。

儘管如此成功,訓練 LLM 的成本還是太高昂,以至於只有少數公司能承受其訓練成本。此外,目前的趨勢說明未來還會使用更大規模的訓練數據,這將進一步推升大模型的研發成本。舉個例子,LLAMA-1 訓練使用了 1-1.4 TB token,而 Llama 2 則是達到了 2 TB。

研發 LLM 的另一個大關鍵性挑戰是評估。主流的評估方法分為兩類:知識評估(MMLU 和 C-Eval)和 NLP 任務評估。這些評估方法可能無法真實反映模型的能力,因為也許存在資料外洩問題,即評估資料集中某些部分可能在模型訓練過程中已被使用。此外,知識導向的評估方法可能不足以評估智能等級。一種更公平客觀的評估方法是測 LLM 的智商(IQ),即將 LLM 泛化用於未在訓練資料中見過的條件和上下文。

成長策略。為了解決訓練成本難題,北京智源人工智慧研究院和中國科學院計算技術研究所等多所機構近日做出了一番嘗試 —— 首次透過成長策略(growth strategy)訓練千億參數級的 LLM。成長意味著訓練過程中參數的數量並不固定,而是會從較小的模型擴增成大型模型。

10萬美元+26天,一個低成本千億參數LLM就誕生了

  • 論文:https://arxiv.org/pdf/2309.03852.pdf

  • 需要重寫的內容是:模型連結:https://huggingface.co/CofeAI/FLM-101B

圖1 展示了成長策略的三種典型場景。由於 LLM 的 FLOPs 大致與其參數數量成正比,因此模型參數的變化曲線與 X 軸之間的面積便能表示訓練的計算成本。

10萬美元+26天,一個低成本千億參數LLM就誕生了


圖1 (a) 展示了沒有模型成長的標準訓練策略;1 (b) 是直線型的成長策略,其能節省50% 的成本;1 (c)是一種適量型的成長策略,其節省的成本不到50%;1 (d) 則是一種激進型的成長策略,能節省超過50% 的成本。這項分析說明,為了盡可能節省運算成本,應採用激進型成長策略。

這項新研究的成長算子的設計靈感來自論文《2x faster language model pre-training via masked structural growth》中的MSG,這是一個完整的運算集,涵蓋Transformer 結構的所有四個成長維度。更重要的是,MSG 能在成長的同時嚴格地保存功能。因此,雖然小模型可以透過較小的參數搜尋空間快速學習,但其知識可以被後續更大的模型繼承。這讓成長策略有可能使用相同或更少的運算成本來實現更好的效能。

開源的 FLM-101B 模型。智源研究院的研究者透過逐步成長訓練了一個有 1,010 億參數的 LLM 模型,他們也表示會開源發布該模型。此模型的架構是 FreeLM 的一種演進版。因此,研究者將其命名為 FLM-101B,其中 F 表示 Free。

FreeLM 架構有兩個預訓練目標,分別由語言訊號和教師訊號引導。在這項新研究中,這兩個目標被統一到了一個通用語言建模範式。

IQ 評估基準。除了低成本的訓練範式,團隊還做出了另一項貢獻,即為 LLM 的智商(IQ)評估提出了一套系統性的基準。

先前已有研究顯示:儘管困惑度(PPL)指標能在某種程度上反映生成文本的質量,但卻不可靠。另一方面,LLM 的訓練數據規模非常龐大,以至於我們難以辨別模型究竟只是在引述知識數據,還是真的實現了類似人類的推理、分析和概括能力,而這些能力正是這項研究定義IQ的基礎。一些常用的評估指標(用於英語的 MMLU 和用於漢語的 C-Eval)明顯是面向知識的,無法全面反映模型的智慧程度。

為了進行完整性檢查,該團隊進行了一項測試:來自世界知名大學的五名電腦科學研究者使用C-Eval 的化學試題進行了考試。結果發現他們的準確度幾乎相當於隨機亂猜,因為大多數志願者都已經忘記曾經學過的化學知識。因此,強調對專業知識的了解程度的評估基準其實不足以衡量模型的 IQ。

為了全面衡量LLM 的IQ,該團隊開發了一個IQ 評估基準,其中考慮了智商的四個關鍵方面:符號映射、規則理解、模式挖掘和抗干擾。
  • 語言本質上是符號的。已經有一些研究在使用符號而非類別標籤來評估 LLM 的智慧程度。類似地,團隊使用了一種符號映射方法來測試 LLM 在未曾見過的上下文上的泛化能力。 

  • 人類智慧的一大重要能力是理解給定的規則並採取相應的行動。這種測試方法已被廣泛地用在各種等級的測驗中。因此,規則理解成為這裡的第二項測試。 

  • 重寫後的內容:模式挖掘是智慧的重要組成部分,它涉及歸納和演繹。在科學發展歷史中,這種方法扮演著至關重要的角色。此外,各種競賽的測試題也常常需要這種能力才能解答。基於這些原因,我們選擇了模式挖掘作為第三個評估指標

  • 最後一個也很重要的指標是抗干擾能力,這也是智慧的核心能力之一。已有研究指出,語言和影像都很容易被雜訊幹擾。考慮到這一點,團隊把抗干擾用作了最後一個評估指標。

當然,這四個指標絕非LLM IQ 評估的定案,但它們可作為一個起點,激勵後續的研究發展,並有望最終催生出一套全面的LLM IQ 評估框架。

這項研究的主要貢獻包括: 
  • 研究者表示,這是一個使用成長策略從頭開始訓練超過千億參數的LLM研究嘗試。同時,這也是目前成本最低的千億參數模型,只需10萬美元成本

  • #透過改進FreeLM 訓練目標、有潛力的超參數搜尋方法和功能保留型成長,這項研究解決了不穩定問題。研究者相信此方法也能為更廣大的科學研究社群提供助力。 

  • 研究人員也對新模型與先前的強大模型進行了實驗比較,包括使用知識導向的基準和新提出的系統性IQ評估基準。實驗結果顯示,FLM-101B模型具有競爭力且穩健

  • 團隊會發布模型檢查點、程式碼、相關工具等,以推進千億參數規模的漢語和英語雙語 LLM 的研究開發。

FLM-101B 設計概況

從架構上看,FLM-101B 以FreeLM 為骨幹網絡,並整合了xPos。在模型大小方面,由於新的成長策略,研究者能在一次訓練中得到 16B、51B 和 101B 三種大小的模型。

至於預訓練設置,FLM-101B 繼承了 FreeLM 的訓練策略。

而在成長策略方面,不同於獨立訓練不同大小模型的常用實踐方法,該團隊可以依次訓練具有16B、51B 和101B 參數的三個模型,其中每個模型都會繼承其前一個較小模型的知識。

至於訓練硬件,則是使用了24 台DGX-A800 GPU (8×80G) 伺服器組成的集群;FLM-101B 的訓練時長不到26 天更多重並行策略和模型配置請參考下表1 和2。

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

FLM-101B 的訓練穩定性

##為了解決損失發散和梯度暴增等不穩定問題,研究者提出了一個相當有潛力的解決方案,簡述如下。

損失預測。新提出的實現訓練穩定的方法如下:

首先,在 FLM-16B 訓練開始之前先確定資料的分佈。

接下來,對三個超參數進行網格搜索,包括學習率、初始化標準差和輸出層的 softmax 溫度。此網格搜尋的執行是透過運行一個代理模型,其隱藏狀態維度(即模型寬度)為 256、頭數為 2,參數數量為 4,000 萬。此代理模型的其它所有結構超參數和訓練資料與 FLM-16B 相同。在 6 個節點上使用資料並行時,一次運行網格搜尋耗時為 24.6 小時,這大致表示:如果使用 24 節點的配置,那麼運行一次需要 6 小時。

透過這個網格搜索,研究者找到了最優的超參數:學習率= 4e-4、標準差= 1.6e-2、softmax 溫度= 2.0。

然後他們透過 µP 遷移這些超參數,能實現規避了不穩定問題的無縫訓練體驗。再組合使用 MSG,LM-51B 和 FLM-101B 也沒出現後續的成長發散問題。

圖 2 展示了完整的訓練損失曲線。

10萬美元+26天,一個低成本千億參數LLM就誕生了

透過 Bfloat16 實現混合精度。使用混合精度的目的是節省運行時的記憶體和時間成本,這裡他們選擇的是 Bfloat16。
 
基準評估

表3 比較了FLM-101B 與其它強大基準模型(LLAMA 系列模型和GLM-130B)的性能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

研究者表示,這些結果說明FLM-101B 在事實性知識方面並沒有任何優勢,而如果能使用更多訓練數據,那麼其性能還會繼續提升。

表 4 展示了 eFLM-16B 與基準模型在專業知識評估方面的結果。

10萬美元+26天,一個低成本千億參數LLM就誕生了

結果證明,在強調專業知識的資料集上的分數並不能反映 LLM 的智慧水平,因為某些特定訓練資料可能具有壓倒性的貢獻。

表 5 給出了 FLM 模型每一階段的效能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

如預期的那樣,FLM 的性能表現會隨模型增大而提升。 FLM-101B 幾乎在所有任務上都表現最佳。這意味著該模型每一次增長後都會繼承前一階段的知識。
 
IQ 實驗

#實驗中,為了對LLM 的IQ 進行更系統性的評估,智源研究院的這個團隊使用了現有的IQ 相關資料集並做了一些必要的修改,他們也產生了一些新的合成資料。

具體來說,他們提出的 IQ 評估主要考慮了四個面向:符號映射、規則理解、模式挖掘和抗干擾。這些任務有一個關鍵的共同點:它們全都依賴在新的脈絡中進行推理和泛化。

下面幾張表格展示了IQ 實驗的結果:

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

從這些表格來看,在這四個IQ 評估基準上,FLM-101B 憑藉著低得多的計算成本取得了與GPT-3 媲美且優於GLM-130B 的結果。

除了訓練資料的影響外,研究者推測這種優勢可能是由於早期階段的小模型細化了較小的搜尋空間,當模型變得更大更寬,泛化能力增強時,這種優勢還在持續發揮作用。

以上是10萬美元+26天,一個低成本千億參數LLM就誕生了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除