首頁 >科技週邊 >人工智慧 >7B開源數學模型幹翻千億GPT-4,中國團隊出品

7B開源數學模型幹翻千億GPT-4,中國團隊出品

王林
王林轉載
2024-02-07 17:03:28732瀏覽

7B開源模型,數學能力超過了千億規模的GPT-4!

它的表現可謂是突破了開源模型的極限,連阿里通義的研究員也感嘆縮放定律是不是失效了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

#無須使用任何外部工具,它就能在競賽等級的MATH資料集上達到51.7%的準確率。

在開源模型中,它第一個在該資料集上達到一半的準確率,甚至超過了早期和API版本的GPT-4。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

這一表現讓整個開源社群震驚,Stability AI的創始人Emad Mostaque稱讚研發團隊令人印象深刻,潛力被低估了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

它,就是深度求索團隊最新開源的7B數學大模型DeepSeekMath。

7B模型力壓群雄

為了評估DeepSeekMath的數學能力,研究團隊使用了中(MGSM-zh、CMATH)(GSM8K、MATH )雙語的資料集進行了測試。

在未使用輔助工具、僅靠思考鏈(CoT)提示的情況下,DeepSeekMath的表現均超越了其他開源模型,其中包括70B的數學大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成績也大幅提升。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如果考慮閉源模型,DeepSeekMath也是在幾個資料集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4, MATH上的表現也與之接近。

但要注意的是,GPT-4依洩漏規格是一個千億參數的龐然大物,而DeepSeekMath參數量只有7B。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如果允許使用工具(Python)進行輔助,DeepSeekMath在競賽難度(MATH)資料集上的表現還能再提高7個百分點。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

那麼,DeepSeekMath優異表現的背後,都應用了哪些技術呢?

基於程式碼模型打造

為了獲得比從通用模型更好的數學能力,研究團隊使用了程式碼模型DeepSeek-Coder-v1.5對其進行初始化。

因為團隊發現,無論是在兩階段訓練或一階段訓練設定下,程式碼訓練比起通用資料訓練都可以提升模型的數學能力。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

在Coder的基礎上,研究團隊繼續訓練了5000億token,資料分佈如下圖:

7B開源數學模型幹翻千億GPT-4,中國團隊出品

訓練數據方面,DeepSeekMath使用的是從Common Crawl提取的120B高品質數學網頁數據,得到了DeepSeekMath Corpus,總數據量是開源數據集OpenWebMath的9倍。

資料收集過程是迭代式進行的,經過四次迭代,研究團隊收集了3500多萬個數學網頁,Token數量達到了1200億。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

為了確保訓練資料中不包含測試集的內容(因為GSM8K、MATH中的內容在網路上大量存在),研究團隊還專門進行了過濾。

為了驗證DeepSeekMath Corpus的資料質量,研究團隊分別用MathPile等多個資料集訓練了1500億token,結果Corpus在多個數學基准上效果明顯領先。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

對齊階段,研究團隊首先建構了一個776K樣本的中英文數學指導監督微調(SFT)資料集,其中包括CoT、PoT和工具整合推理等三種格式。

而在強化學習(RL)階段,研究團隊使用了一種名為「基於群組的相對策略最佳化」(Group Relative Policy Optimization ,GRPO)的高效演算法.

GRPO是近端策略最佳化(PPO)的變體,過程中傳統的價值函數被替換為基於群組的相對獎勵估計,可以減少訓練過程中的計算和記憶體需求。

同時,GRPO透過迭代過程進行訓練,獎勵模型會根據策略模型的輸出不斷更新,以確保策略的持續改進。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

曾推出首個國產開源MoE模型

#推出DeepSeekMath的深度求索團隊,是國內開源模型領域的一名「頭部選手」。

先前,該團隊就曾推出首個國產開源MoE模型DeepSeek MoE,它的7B版本以40%的計算量擊敗了相同規模的密集模型Llama 2。

作為通用模型,DeepSeek MoE在程式碼和數學任務上的表現就已十分亮眼,而且資源消耗非常低。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

程式碼方面,團隊推出的DeepSeek-Coder的程式設計能力在程式碼產生、跨檔案程式碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源標竿CodeLllama。

同時,它也擊敗了GPT-3.5-Turbo,成為最接近GPT-4-Turbo的開源程式碼模型。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如前文所說,此次推出的DeepSeekMath,也正是在Coder的基礎之上打造的。

而在X上,已經有人開始在期待Coder和Math的MoE版本了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

論文網址:https://arxiv.org/abs/2402.03300

以上是7B開源數學模型幹翻千億GPT-4,中國團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除