首頁  >  文章  >  科技週邊  >  全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一

PHPz
PHPz轉載
2024-05-07 16:13:20892瀏覽

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源 MoE 模型來了。

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

DeepSeek-V2 是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由 236B 個參數組成,其中 21B 個參數用於啟動每個標記。 與 DeepSeek 67B 相比,DeepSeek-V2 性能更強,同時節省了 42.5% 的訓練成本,減少了 93.3% 的 KV 緩存,最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智慧(AGI)本質的公司,並致力於將研究、工程和商業三者融為一體。

DeepSeek-V2 的綜合能力

#在目前大模型主流榜單中,DeepSeek-V2 都表現出色:

  • #中文綜合能力(AlignBench)開源模型中最強:與GPT-4-Turbo,文心4.0 等閉源模型在評測中處於同一梯隊
  • 英文綜合能力(MT-Bench)處於第一梯隊:英文綜合能力(MT-Bench)與最強的開源模型LLaMA3-70B 處於同一梯隊,超過最強MoE 開源模型Mixtral 8x22B
  • 知識、數學、推理、編程等榜單結果位居前列
  • 支援128K 上下文視窗

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

全新的模型結構

當AI 的潛力被不斷挖掘,我們不禁要問:什麼是推動智慧進步的關鍵? DeepSeek-V2 給了答案 —— 創新架構與成本效益的完美結合

"DeepSeek-V2是一種改進版本,以236B的總參數和21B的激活,最終達到了70B~110B Dense模型的能力,同時顯存消耗僅為同級別模型的1/5~ 1/100。 ##在AI技術快速發展的今天,DeepSeek-V2的出現,不僅代表了技術的突破,也預示著智慧應用的普及化。它將AI的門檻降低,讓更多企業和個人能夠享受高效率智慧服務的益處。同時,它也更預示著智慧應用的普及化。它將AI的門檻降低,讓更多企業和個人能夠享受高效率智慧服務的益處。

中文能力 VS 價格

在中文能力方面,DeepSeek-V2 在 AlignBench 排名中全球領先,同時提供極具競爭力的 API 價格。

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

模型與論文雙開源

DeepSeek-V2,不只是一個模型,它是通往更智慧世界的鑰匙。它以更低的成本,更高的效能,開啟了 AI 應用的新篇章。 DeepSeek-V2 的開源,是對這項信念的最佳證明,它將激發更多人的創新精神,共同推動人類智慧的未來。

模型權重:https://huggingface.co/deepseek-ai
  • #開源位址:https://github.com/deepseek-ai/DeepSeek-V2
  • 在AI 不斷進化的今天,你認為DeepSeek-V2 將如何改變我們的世界?讓我們拭目以待,有興趣的話,可以造訪
 

chat.deepseek.com 親自體驗 DeepSeek-V2 帶來的技術變革。

參考資料

[1]

#DeepSeek-V2:

 

https: //www.php.cn/link/b2651c9921723afdfd04ed61ec302a6b

#

以上是全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除