首頁  >  文章  >  科技週邊  >  李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

PHPz
PHPz轉載
2023-11-06 18:13:01529瀏覽

李開復指出:「要讓零一萬物躋身全球大模型的第一梯隊。」

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

開源大模型宇宙又有了新的重量級成員,這次是創新工場董事長兼CE0 李開復大模型公司「零一萬物」推出的「Yi」系列開源大模型。據悉,零一萬物在今年 3 月底官方宣布成立,六、七月開始運營,李開復博士為創辦人兼 CEO。

11 月6 日,零一萬物正式發布「Yi」系列預訓練開源大模型,包括了 Yi-6B 和Yi-34B 兩個版本,給了開源大模型社群「一點小小的震撼」。

根據Hugging Face 英文開源社群平台和C-Eval 中文評測的最新名單,Yi-34B 預訓練模式取得了多項SOTA 國際最佳效能指標認可,成為全球開源大模型“雙料冠軍”,擊敗了LLaMA2 和Falcon 等開源競品。

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

Yi-34B 也成為迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產模型

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

以小博大,登頂全球英文及中文權威大模型榜單No 1

我們了解到,在Hugging Face 英文測試公開榜單Pretrained 預訓練開源模型排名中,Yi-34B 的各項指標表現亮眼,以70.72 的分數位列全球第一,以小博大,碾壓LLaMA2-70B 和Falcon-180B 等眾多大尺寸模型

在參數量和性能方面,Yi-34B 相當於只用了不及LLaMA2-70B 一半、Falcon-180B 五分之一的參數量,取得了在各項測驗任務中超越全球領跑者的成績。憑藉出色表現,Yi-34B 躋身目前世界範圍內開源最強基礎模型之列。

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

                                 之後中使用:https://hugging#co/spaces/HuggingFace_4/##c/spaces/Hugging#c/spaces/Hugging#c/spaces/Hugging#H.
#同時作為國產大模型, 李開復表示,Yi-34B 更「懂」中文,
在C-Eval 中文權威榜單排行榜上超越了全球所有開源模型

相較於大模型最強王者GPT-4,Yi-34B 在CMMLU、E-Eval、Gaokao 三個主要中文指標上具有絕對優勢,凸顯中文世界的優異能力,能夠更好地滿足國內市場需求。

從更全面的評估來看,在全球大模型各項評測中最關鍵的「MMLU」(Massive Multitask Language Understanding,大規模多任務語言理解) 、BBH 等反映模式綜合能力的評測集上,Yi-34B 表現最為突出,在通用能力、知識推理、閱讀理解等多項指標評比中全部勝出,與Hugging Face 評測高度一致。

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

不過,與 LLaMA2 一樣,Yi 系列開源大模型在 GSM8k、MBPP 的數學和程式碼評測表現略遜 GPT 模型。未來,Yi 系列大模型將推出專攻程式碼能力與數學能力的繼續訓練模型。

上下文視窗大小突破200k,並直接開源

在對大模型實戰效果至關重要的上下文視窗方面,此次開源的Yi-34B 發布了全球最長、支援200K 超長上下文視窗版本,可以處理約40 萬漢字超長文字輸入,大致相當於一本《儒林外史》的長度。相較之下,OpenAI 的 GPT-4 上下文視窗只有 32K,文字處理量約 2.5 萬字。

李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首

如何做到的呢?據了解,零一萬物技術團隊實施了一系列最佳化,包括了計算通訊重疊、序列並行、通訊壓縮等。透過這些能力增強,實現了在大規模模型訓練中近 100 倍的能力提升。

值得一提的是,零一萬物還是第一家將超長上下文視窗開源開放的大模型公司,允許開發者直接使用。

Yi-34B 的200K 上下文視窗直接開源,不僅能提供更豐富的語義信息,理解超過1000 頁的PDF 文件,讓很多依賴於向量資料庫構建外部知識庫的場景都可以用上下文視窗來進行替代。 Yi-34B 的開源屬性也為想要在更長上下文視窗進行微調的開發者提供了更多的可能性。

獨有科學訓模方法,訓練成本下降40%

##Yi- 34B 如此強大,這要歸功於以下兩個關鍵因素,即 
AI Infra 團隊、自研規模化訓練平台

李開復介紹稱,零一萬物內部設立了AI Infra(AI Infrastructure)團隊​​,主要負責大模型訓練和部署提供各種底層技術設施,包括處理器、作業系統、儲存系統、網路基礎設施、雲端運算平台等等,成為Yi 系列模型訓練背後極為關鍵的「保障技術」。

憑藉強大的 AI Infra 支撐,零一萬物團隊實現了超越行業水平的訓練效果。
Yi-34B 模型訓練成本實測下降 40%,實際訓練完成達標時間與預測的時間誤差不到一小時,進一步模擬上到千億規模訓練成本可下降多達 50%。

同時,零一萬物實現了從「粗放煉丹」到「科學訓模」方法論的轉化。

經過幾個月的建模和實驗,零一萬物自研出一套「規模化訓練實驗平台」,用來指導模型的設計與最佳化。資料配比、超參搜尋、模型結構實驗都可以在小規模實驗平台上進行,對 34B 模型每個節點的預測誤差都可以控制在 0.5% 以內。模型預測能力更強,大大減少了進行比較實驗所需的資源,也減少了訓練誤差對於計算資源的浪費。

資料處理管線和加大規模預測的訓練能力建設,把以往的大模型訓練碰運氣的「煉丹」過程變得極度細緻和科學化,不僅保證了目前發布Yi-34B、Yi-6B 模型的高性能,也為未來更大規模模型的訓練壓縮了時間和成本,還有能力以領先於行業的速度將模型規模擴大到數倍。

最後,李開復也宣布,在完成 Yi-34B 預訓練的同時,已經旋即啟動下一個千億參數模型的訓練。
李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首
未來幾個月,我們預計將看到更多的 Yi 後續大模型亮相。

以上是李開復正式宣布推出「全球最強」的開源大模型:處理40萬漢字,中英文皆位居榜首的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除