搜尋
首頁科技週邊人工智慧10萬美元+26天,一個低成本千億參數LLM就誕生了

包括僅解碼器結構(如GPT 和LLAMA 系列模型)、僅編碼器結構(如BERT)和編碼器- 解碼器結構(如T5)以及它們的變體模型在內的大型語言模型(LLM )已經取得了非凡的成功,並已被廣泛用於各種語言處理和多模態任務。

儘管如此成功,訓練 LLM 的成本還是太高昂,以至於只有少數公司能承受其訓練成本。此外,目前的趨勢說明未來還會使用更大規模的訓練數據,這將進一步推升大模型的研發成本。舉個例子,LLAMA-1 訓練使用了 1-1.4 TB token,而 Llama 2 則是達到了 2 TB。

研發 LLM 的另一個大關鍵性挑戰是評估。主流的評估方法分為兩類:知識評估(MMLU 和 C-Eval)和 NLP 任務評估。這些評估方法可能無法真實反映模型的能力,因為也許存在資料外洩問題,即評估資料集中某些部分可能在模型訓練過程中已被使用。此外,知識導向的評估方法可能不足以評估智能等級。一種更公平客觀的評估方法是測 LLM 的智商(IQ),即將 LLM 泛化用於未在訓練資料中見過的條件和上下文。

成長策略。為了解決訓練成本難題,北京智源人工智慧研究院和中國科學院計算技術研究所等多所機構近日做出了一番嘗試 —— 首次透過成長策略(growth strategy)訓練千億參數級的 LLM。成長意味著訓練過程中參數的數量並不固定,而是會從較小的模型擴增成大型模型。

10萬美元+26天,一個低成本千億參數LLM就誕生了

  • 論文:https://arxiv.org/pdf/2309.03852.pdf

  • 需要重寫的內容是:模型連結:https://huggingface.co/CofeAI/FLM-101B

圖1 展示了成長策略的三種典型場景。由於 LLM 的 FLOPs 大致與其參數數量成正比,因此模型參數的變化曲線與 X 軸之間的面積便能表示訓練的計算成本。

10萬美元+26天,一個低成本千億參數LLM就誕生了


圖1 (a) 展示了沒有模型成長的標準訓練策略;1 (b) 是直線型的成長策略,其能節省50% 的成本;1 (c)是一種適量型的成長策略,其節省的成本不到50%;1 (d) 則是一種激進型的成長策略,能節省超過50% 的成本。這項分析說明,為了盡可能節省運算成本,應採用激進型成長策略。

這項新研究的成長算子的設計靈感來自論文《2x faster language model pre-training via masked structural growth》中的MSG,這是一個完整的運算集,涵蓋Transformer 結構的所有四個成長維度。更重要的是,MSG 能在成長的同時嚴格地保存功能。因此,雖然小模型可以透過較小的參數搜尋空間快速學習,但其知識可以被後續更大的模型繼承。這讓成長策略有可能使用相同或更少的運算成本來實現更好的效能。

開源的 FLM-101B 模型。智源研究院的研究者透過逐步成長訓練了一個有 1,010 億參數的 LLM 模型,他們也表示會開源發布該模型。此模型的架構是 FreeLM 的一種演進版。因此,研究者將其命名為 FLM-101B,其中 F 表示 Free。

FreeLM 架構有兩個預訓練目標,分別由語言訊號和教師訊號引導。在這項新研究中,這兩個目標被統一到了一個通用語言建模範式。

IQ 評估基準。除了低成本的訓練範式,團隊還做出了另一項貢獻,即為 LLM 的智商(IQ)評估提出了一套系統性的基準。

先前已有研究顯示:儘管困惑度(PPL)指標能在某種程度上反映生成文本的質量,但卻不可靠。另一方面,LLM 的訓練數據規模非常龐大,以至於我們難以辨別模型究竟只是在引述知識數據,還是真的實現了類似人類的推理、分析和概括能力,而這些能力正是這項研究定義IQ的基礎。一些常用的評估指標(用於英語的 MMLU 和用於漢語的 C-Eval)明顯是面向知識的,無法全面反映模型的智慧程度。

為了進行完整性檢查,該團隊進行了一項測試:來自世界知名大學的五名電腦科學研究者使用C-Eval 的化學試題進行了考試。結果發現他們的準確度幾乎相當於隨機亂猜,因為大多數志願者都已經忘記曾經學過的化學知識。因此,強調對專業知識的了解程度的評估基準其實不足以衡量模型的 IQ。

為了全面衡量LLM 的IQ,該團隊開發了一個IQ 評估基準,其中考慮了智商的四個關鍵方面:符號映射、規則理解、模式挖掘和抗干擾。
  • 語言本質上是符號的。已經有一些研究在使用符號而非類別標籤來評估 LLM 的智慧程度。類似地,團隊使用了一種符號映射方法來測試 LLM 在未曾見過的上下文上的泛化能力。 

  • 人類智慧的一大重要能力是理解給定的規則並採取相應的行動。這種測試方法已被廣泛地用在各種等級的測驗中。因此,規則理解成為這裡的第二項測試。 

  • 重寫後的內容:模式挖掘是智慧的重要組成部分,它涉及歸納和演繹。在科學發展歷史中,這種方法扮演著至關重要的角色。此外,各種競賽的測試題也常常需要這種能力才能解答。基於這些原因,我們選擇了模式挖掘作為第三個評估指標

  • 最後一個也很重要的指標是抗干擾能力,這也是智慧的核心能力之一。已有研究指出,語言和影像都很容易被雜訊幹擾。考慮到這一點,團隊把抗干擾用作了最後一個評估指標。

當然,這四個指標絕非LLM IQ 評估的定案,但它們可作為一個起點,激勵後續的研究發展,並有望最終催生出一套全面的LLM IQ 評估框架。

這項研究的主要貢獻包括: 
  • 研究者表示,這是一個使用成長策略從頭開始訓練超過千億參數的LLM研究嘗試。同時,這也是目前成本最低的千億參數模型,只需10萬美元成本

  • #透過改進FreeLM 訓練目標、有潛力的超參數搜尋方法和功能保留型成長,這項研究解決了不穩定問題。研究者相信此方法也能為更廣大的科學研究社群提供助力。 

  • 研究人員也對新模型與先前的強大模型進行了實驗比較,包括使用知識導向的基準和新提出的系統性IQ評估基準。實驗結果顯示,FLM-101B模型具有競爭力且穩健

  • 團隊會發布模型檢查點、程式碼、相關工具等,以推進千億參數規模的漢語和英語雙語 LLM 的研究開發。

FLM-101B 設計概況

從架構上看,FLM-101B 以FreeLM 為骨幹網絡,並整合了xPos。在模型大小方面,由於新的成長策略,研究者能在一次訓練中得到 16B、51B 和 101B 三種大小的模型。

至於預訓練設置,FLM-101B 繼承了 FreeLM 的訓練策略。

而在成長策略方面,不同於獨立訓練不同大小模型的常用實踐方法,該團隊可以依次訓練具有16B、51B 和101B 參數的三個模型,其中每個模型都會繼承其前一個較小模型的知識。

至於訓練硬件,則是使用了24 台DGX-A800 GPU (8×80G) 伺服器組成的集群;FLM-101B 的訓練時長不到26 天更多重並行策略和模型配置請參考下表1 和2。

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

FLM-101B 的訓練穩定性

##為了解決損失發散和梯度暴增等不穩定問題,研究者提出了一個相當有潛力的解決方案,簡述如下。

損失預測。新提出的實現訓練穩定的方法如下:

首先,在 FLM-16B 訓練開始之前先確定資料的分佈。

接下來,對三個超參數進行網格搜索,包括學習率、初始化標準差和輸出層的 softmax 溫度。此網格搜尋的執行是透過運行一個代理模型,其隱藏狀態維度(即模型寬度)為 256、頭數為 2,參數數量為 4,000 萬。此代理模型的其它所有結構超參數和訓練資料與 FLM-16B 相同。在 6 個節點上使用資料並行時,一次運行網格搜尋耗時為 24.6 小時,這大致表示:如果使用 24 節點的配置,那麼運行一次需要 6 小時。

透過這個網格搜索,研究者找到了最優的超參數:學習率= 4e-4、標準差= 1.6e-2、softmax 溫度= 2.0。

然後他們透過 µP 遷移這些超參數,能實現規避了不穩定問題的無縫訓練體驗。再組合使用 MSG,LM-51B 和 FLM-101B 也沒出現後續的成長發散問題。

圖 2 展示了完整的訓練損失曲線。

10萬美元+26天,一個低成本千億參數LLM就誕生了

透過 Bfloat16 實現混合精度。使用混合精度的目的是節省運行時的記憶體和時間成本,這裡他們選擇的是 Bfloat16。
 
基準評估

表3 比較了FLM-101B 與其它強大基準模型(LLAMA 系列模型和GLM-130B)的性能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

研究者表示,這些結果說明FLM-101B 在事實性知識方面並沒有任何優勢,而如果能使用更多訓練數據,那麼其性能還會繼續提升。

表 4 展示了 eFLM-16B 與基準模型在專業知識評估方面的結果。

10萬美元+26天,一個低成本千億參數LLM就誕生了

結果證明,在強調專業知識的資料集上的分數並不能反映 LLM 的智慧水平,因為某些特定訓練資料可能具有壓倒性的貢獻。

表 5 給出了 FLM 模型每一階段的效能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

如預期的那樣,FLM 的性能表現會隨模型增大而提升。 FLM-101B 幾乎在所有任務上都表現最佳。這意味著該模型每一次增長後都會繼承前一階段的知識。
 
IQ 實驗

#實驗中,為了對LLM 的IQ 進行更系統性的評估,智源研究院的這個團隊使用了現有的IQ 相關資料集並做了一些必要的修改,他們也產生了一些新的合成資料。

具體來說,他們提出的 IQ 評估主要考慮了四個面向:符號映射、規則理解、模式挖掘和抗干擾。這些任務有一個關鍵的共同點:它們全都依賴在新的脈絡中進行推理和泛化。

下面幾張表格展示了IQ 實驗的結果:

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

從這些表格來看,在這四個IQ 評估基準上,FLM-101B 憑藉著低得多的計算成本取得了與GPT-3 媲美且優於GLM-130B 的結果。

除了訓練資料的影響外,研究者推測這種優勢可能是由於早期階段的小模型細化了較小的搜尋空間,當模型變得更大更寬,泛化能力增強時,這種優勢還在持續發揮作用。

以上是10萬美元+26天,一個低成本千億參數LLM就誕生了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
潛在的醫療補助削減威脅孕產婦醫療保健潛在的醫療補助削減威脅孕產婦醫療保健Apr 17, 2025 am 11:18 AM

眾議院和參議院都同意在周末進行預算框架。該框架要求削減支出,以支付削減稅收的費用,這些減稅量不成比例,以防止赤字增加,同時也增加

Snowflake首席執行官說,AI ROI始於正確獲取數據Snowflake首席執行官說,AI ROI始於正確獲取數據Apr 17, 2025 am 11:13 AM

雪花首席執行官在坐下來告訴我:“人工智能不應該是大爆炸。” “這應該是一系列小項目,顯示出每一步的價值。”但是,正如拉馬斯瓦米(Ramaswamy)指出的那樣,雖然這聽起來可能謹慎,但實際上是策略。 在中間

每天上傳到Deezer的20,000個AI生成的歌曲每天上傳到Deezer的20,000個AI生成的歌曲Apr 17, 2025 am 11:11 AM

Deezer的首席創新官Aurelien Herault在一份聲明中說:“ AI產生的內容繼續傳到Deezer等洪水流媒體平台,我們沒有看到它放慢速度的跡象。” 儘管沒有減輕洪水的跡象,但Deezer確實有

從體育場到場外:AI如何重塑體育的未來從體育場到場外:AI如何重塑體育的未來Apr 17, 2025 am 11:10 AM

這種轉變不再是理論上的。 卡夫集團(Kraft Group) - 新英格蘭愛國者隊,新英格蘭革命和吉列特體育場(Gillette Stadium)的所有者 - 剛剛宣布與NWN建立戰略合作夥伴關係,以現代化和轉變KR的技術

什麼是及時工程中的問題鏈? - 分析Vidhya什麼是及時工程中的問題鏈? - 分析VidhyaApr 17, 2025 am 11:06 AM

問題鏈:革命性及時工程 想像一下與AI的對話,每個問題都基於上一個問題,從而導致越來越有見地的答案。這是及時工程中的問題鏈(COQ)的力量

訪問Mistral Nemo:功能,應用程序和含義訪問Mistral Nemo:功能,應用程序和含義Apr 17, 2025 am 11:04 AM

Mistral Nemo:強大的開源多語言LLM Mistral AI和Nvidia的合作努力Mismtral Nemo是一種尖端的開源大語模型(LLM),提供最先進的自然語言處理。 這120億桿

Excel中的回合功能是什麼? - 分析VidhyaExcel中的回合功能是什麼? - 分析VidhyaApr 17, 2025 am 10:56 AM

掌握Microsoft Excel的圓形功能,以獲得精確的數值數據 數字是電子表格的基礎,但是實現準確性和可讀性通常不僅需要原始數據。 Microsoft Excel的圓形功能是TRA的強大工具

使用LlamainDex的反射劑指南使用LlamainDex的反射劑指南Apr 17, 2025 am 10:41 AM

增強AI智能:深入研究LlamainDex的反射性AI代理 想像一個AI不僅可以解決問題,而且還反映了自己的改進思維過程。這是反光AI代理的領域,本文探討了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中