中國人工智能正在取得很大的進步,具有挑戰性的領先模型,例如GPT-4,Claude和Grok,具有具有成本效益的開源替代方案,例如DeepSeek-V3和Qwen 2.5。 這些模型由於其效率,可及性和強大的性能而出色。 許多人在允許的商業許可下運營,擴大對開發商和企業的吸引力。 該組的最新成員Minimax-Text-01以其前所未有的400萬令牌上下文長度設置了一個新標準,該標準的長度超過了典型的128K-256K令牌限制。這種擴展的上下文能力,結合了效率的混合注意體系結構和開源,商業允許的許可,促進了創新而無需高昂的成本。
>
>讓我們深入研究minimax-text-01的功能:>
>混合體系結構
Experts(MOE)策略的混合物訓練和縮放策略
- >訓練後優化
- 關鍵創新
- 核心學術基準
- 一般任務基準
- 推理任務基準
- 數學和編碼任務基準
- >開始使用minimax-text-01
- 重要鏈接
- >混合體系結構
- > minimax-text-01通過整合閃電的注意力,軟效果的注意力和雜物(MOE)來巧妙地平衡效率和性能。
- >
7/8線性注意力(Lightning Coative-2):
1/8 softmax的注意:
- > minimax-text-01的獨特MOE架構將其與諸如DeepSeek-V3:之類的模型區分開
-
-
與DeepSeek的無滴方法不同,
- 使用輔助損失來維持跨專家的平衡令牌分配。
- >全局路由器:優化令牌分配,以在專家組之間進行工作負載分配。
- top-k路由:>選擇每個令牌的top-2專家(與DeepSeek的Top-8 1共享專家相比)。 專家配置:
- 使用32位專家(與DeepSeek的256 1共享),專家隱藏的維度為9216(vs. DeepSeek的2048)。 每層的總激活參數與DeepSeek(18,432)相同。 訓練和縮放策略
- 使用了大約2000 h100 gpus,採用了高級並行性技術,例如專家張量並行性(ETP)和線性注意序列序列並行性和平行性(LASP)。 針對8位量化進行了優化,以在8x80GB H100節點上有效推斷。
- 培訓數據:使用WSD樣學習率計劃進行了大約12萬億代幣培訓。 該數據包括高質量和低質量來源的混合物,以及全局重複數據刪除和4倍重複的高質量數據。
- >長篇下說訓練:一種三個基礎的方法:階段1(128K上下文),第2階段(512k上下文)和第3階段(1M上下文),使用線性插值來管理上下文長度縮放期間的分佈變化。 >
- > >訓練後優化
使用脫機DPO和在線grpo進行對齊的監督微調(SFT)和強化學習(RL)的周期。 - >
- 長篇小說微調: 一個分階段的方法:短篇小寫SFT→長篇小寫SFT→短篇小寫→短上下文rl→長上下文RL,對於上下文的長篇小說性能至關重要。
- 關鍵創新
deepnorm:
>- 一種後構體結構增強了剩餘連接縮放和訓練穩定性。
- 批次尺寸熱身: 逐漸將批次尺寸從16m增加到128m令牌,以進行最佳訓練動力學。
- 有效的並行性: 利用環的注意來最大程度地減少長序列和填充優化的內存開銷,以減少浪費的計算。
- 核心學術基準
(此處包括用於一般任務,推理任務和數學和編碼任務的基準結果的表,此處包括原始輸入表。)
(其他評估參數鏈接保留)
>開始使用minimax-text-01
(用於使用擁抱臉部變壓器的minimax-text-01的代碼示例保持不變。) 重要鏈接
- 在線API
- 文檔
- 結論
> minimax-Text-01表現出令人印象深刻的功能,在長期和通用任務中實現了最先進的表現。儘管存在改進領域,但其開源性質,成本效益和創新的建築使其成為AI領域的重要參與者。 它特別適用於記憶密集型和復雜的推理應用,儘管編碼任務的進一步完善可能是有益的。
以上是4M令牌? Minimax-Text-01優於DeepSeek V3的詳細內容。更多資訊請關注PHP中文網其他相關文章!

網絡攻擊正在發展。 通用網絡釣魚電子郵件的日子已經一去不復返了。 網絡犯罪的未來是超個性化的,利用了容易獲得的在線數據和AI來製作高度針對性的攻擊。 想像一個知道您的工作的騙子

新當選的教皇獅子座(Leo Xiv)在對紅衣主教學院的就職演講中,討論了他的同名人物教皇里奧XIII的影響,他的教皇(1878-1903)與汽車和汽車和汽車公司的黎明相吻合

本教程演示瞭如何使用模型上下文協議(MCP)和FastAPI將大型語言模型(LLM)與外部工具集成在一起。 我們將使用FastAPI構建一個簡單的Web應用程序,並將其轉換為MCP服務器,使您的L

探索DIA-1.6B:由兩個本科生開發的開創性的文本對語音模型,零資金! 這個16億個參數模型產生了非常現實的語音,包括諸如笑聲和打噴嚏之類的非語言提示。本文指南

我完全同意。 我的成功與導師的指導密不可分。 他們的見解,尤其是關於業務管理,構成了我的信念和實踐的基石。 這種經驗強調了我對導師的承諾

AI 增强型矿业设备 矿业作业环境恶劣且危险重重。人工智能系统通过将人类从最危险的环境中移除并增强人类能力,帮助提高整体效率和安全性。人工智能越来越多地用于为矿业作业中使用的自动驾驶卡车、钻机和装载机提供动力。 这些 AI 驱动的车辆能够在危险环境中精确作业,从而提高安全性和生产力。一些公司已经开发出用于大型矿业作业的自动驾驶采矿车辆。 在挑战性环境中运行的设备需要持续维护。然而,维护会使关键设备离线并消耗资源。更精确的维护意味着昂贵且必要的设备的正常运行时间增加以及显著的成本节约。 AI 驱动

Salesforce首席執行官Marc Benioff預測了由AI代理商驅動的巨大的工作場所革命,這是Salesforce及其客戶群中已經進行的轉型。 他設想從傳統市場轉變為一個較大的市場,重點是

人力資源中AI的崛起:與機器人同事一起導航勞動力 將人工智能集成到人力資源(HR)不再是未來派的概念。它正在迅速成為新現實。 這種轉變影響了人力資源專業人員和員工,DEM


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

禪工作室 13.0.1
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6
視覺化網頁開發工具