7B開源模型,數學能力超過了千億規模的GPT-4!
它的表現可謂是突破了開源模型的極限,連阿里通義的研究員也感嘆縮放定律是不是失效了。
#無須使用任何外部工具,它就能在競賽等級的MATH資料集上達到51.7%的準確率。
在開源模型中,它第一個在該資料集上達到一半的準確率,甚至超過了早期和API版本的GPT-4。
這一表現讓整個開源社群震驚,Stability AI的創始人Emad Mostaque稱讚研發團隊令人印象深刻,潛力被低估了。
它,就是深度求索團隊最新開源的7B數學大模型DeepSeekMath。
7B模型力壓群雄
為了評估DeepSeekMath的數學能力,研究團隊使用了中(MGSM-zh、CMATH)英(GSM8K、MATH )雙語的資料集進行了測試。
在未使用輔助工具、僅靠思考鏈(CoT)提示的情況下,DeepSeekMath的表現均超越了其他開源模型,其中包括70B的數學大模型MetaMATH。
和自家推出的67B通用大模型相比,DeepSeekMath的成績也大幅提升。
如果考慮閉源模型,DeepSeekMath也是在幾個資料集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4, MATH上的表現也與之接近。
但要注意的是,GPT-4依洩漏規格是一個千億參數的龐然大物,而DeepSeekMath參數量只有7B。
如果允許使用工具(Python)進行輔助,DeepSeekMath在競賽難度(MATH)資料集上的表現還能再提高7個百分點。
那麼,DeepSeekMath優異表現的背後,都應用了哪些技術呢?
基於程式碼模型打造
為了獲得比從通用模型更好的數學能力,研究團隊使用了程式碼模型DeepSeek-Coder-v1.5對其進行初始化。
因為團隊發現,無論是在兩階段訓練或一階段訓練設定下,程式碼訓練比起通用資料訓練都可以提升模型的數學能力。
在Coder的基礎上,研究團隊繼續訓練了5000億token,資料分佈如下圖:
訓練數據方面,DeepSeekMath使用的是從Common Crawl提取的120B高品質數學網頁數據,得到了DeepSeekMath Corpus,總數據量是開源數據集OpenWebMath的9倍。
資料收集過程是迭代式進行的,經過四次迭代,研究團隊收集了3500多萬個數學網頁,Token數量達到了1200億。
為了確保訓練資料中不包含測試集的內容(因為GSM8K、MATH中的內容在網路上大量存在),研究團隊還專門進行了過濾。
為了驗證DeepSeekMath Corpus的資料質量,研究團隊分別用MathPile等多個資料集訓練了1500億token,結果Corpus在多個數學基准上效果明顯領先。
對齊階段,研究團隊首先建構了一個776K樣本的中英文數學指導監督微調(SFT)資料集,其中包括CoT、PoT和工具整合推理等三種格式。
而在強化學習(RL)階段,研究團隊使用了一種名為「基於群組的相對策略最佳化」(Group Relative Policy Optimization ,GRPO)的高效演算法.
GRPO是近端策略最佳化(PPO)的變體,過程中傳統的價值函數被替換為基於群組的相對獎勵估計,可以減少訓練過程中的計算和記憶體需求。
同時,GRPO透過迭代過程進行訓練,獎勵模型會根據策略模型的輸出不斷更新,以確保策略的持續改進。
曾推出首個國產開源MoE模型
#推出DeepSeekMath的深度求索團隊,是國內開源模型領域的一名「頭部選手」。
先前,該團隊就曾推出首個國產開源MoE模型DeepSeek MoE,它的7B版本以40%的計算量擊敗了相同規模的密集模型Llama 2。
作為通用模型,DeepSeek MoE在程式碼和數學任務上的表現就已十分亮眼,而且資源消耗非常低。
程式碼方面,團隊推出的DeepSeek-Coder的程式設計能力在程式碼產生、跨檔案程式碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源標竿CodeLllama。
同時,它也擊敗了GPT-3.5-Turbo,成為最接近GPT-4-Turbo的開源程式碼模型。
如前文所說,此次推出的DeepSeekMath,也正是在Coder的基礎之上打造的。
而在X上,已經有人開始在期待Coder和Math的MoE版本了。
論文網址:https://arxiv.org/abs/2402.03300
以上是7B開源數學模型幹翻千億GPT-4,中國團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中