新一代 HCC 高效能運算集群,採用最新一代星星海自研伺服器,搭載英偉達 H800 Tensor Core GPU。
騰訊官方稱,該叢集基於自研網路、儲存架構,帶來 3.2T 超高連網頻寬、TB 級吞吐能力和千萬級 IOPS。實測結果顯示,新一代集群算力效能較前代提升 3 倍。
去年 10 月,騰訊完成首個萬億參數的 AI 大模型 —— 混元 NLP 大模型訓練。在同等資料集下,將訓練時間由 50 天縮短至 11 天。如果基於新一代集群,訓練時間將進一步縮短至 4 天。
運算層面,伺服器單機效能是叢集算力的基礎,騰訊雲新一代叢集的單 GPU 卡在不同精確度下,支援輸出最高 1979 TFlops 的算力。
針對大模型場景,星星海自研伺服器採用6U 超高密度設計,相較業界可支援的上架密度提高30%;利用平行運算概念,透過CPU 與GPU 節點的一體化設計,將單點算力效能提升至更高。
網路層面,計算節點間,存在著海量的資料互動需求。隨著叢集規模擴大,通訊效能會直接影響訓練效率,需要實現網路和運算節點的最大協同。
騰訊自研的星脈高效能運算網絡,號稱具備業界最高的 3.2T RDMA 通訊頻寬。實測結果顯示,搭載同等數量的 GPU,3.2T 星脈網絡相較 1.6T 網絡,集群整體算力提升 20%。
同時,騰訊自研的高效能集合通訊庫 TCCL,融入客製化設計的解決方案。相對業界開源集合通訊庫,為大模型訓練優化 40% 負載效能,消除多個網路原因導致的訓練中斷問題。
儲存層面,大模型訓練中,大量運算節點會同時讀取一批資料集,需要盡可能縮短資料載入時長,避免運算節點產生等待。
騰訊雲端自研的儲存架構,具備 TB 級吞吐能力和千萬級 IOPS,支援不同場景下對儲存的需求。 COS GooseFS 物件儲存方案和 CFS Turbo 高效能檔案儲存方案,充分滿足大模型場景下高效能、大吞吐和海量儲存需求。
此外,新一代叢集整合了騰訊雲自研的TACO 訓練加速引擎,對網路協定、通訊策略、AI 框架、模式編譯進行大量系統級最佳化,大幅節約訓練調優和算力成本。
騰訊混元大模型背後的訓練架構 AngelPTM,也已透過騰訊雲端 TACO 提供服務,幫助企業加速大模式落地。
透過騰訊雲端 TI 平台的大模型能力和工具箱,企業可結合產業場景資料進行精調訓練,提升生產效率、快速創建和部署 AI 應用。
依托分散式雲端原生的治理能力,騰訊雲智算平台提供 16 EFLOPS 的浮點算力。
以上是騰訊發布新一代超強算力集群:面向大模型訓練,效能提升 3 倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!