2. 中國電信研究院、中國電信北京公司、天翼雲公司共同在中國電信現網基於800G C+L 技術,為1024 卡規模的分散式集群提供大容量頻寬,實現120 公里千億參數大模型分散式訓練,效能達到集中訓練的95% 以上。
3. 針對資料傳輸的大頻寬問題,中國電信採用高階調變格式的單波長800G 技術以提高頻譜效率,配合目前的業界熱點的C+L 波段技術實現超大傳輸頻寬,在中國電信武清與潤澤機房之間採用華為公司傳輸設備,透過多次環回建構了大頻寬互聯的智算驗證網,距離達到120km。
4. 針對資料傳輸的高可靠問題,中國電信完成了鏈路誤碼、波長故障、光纖故障等異常測試試驗,結果表明,一個800G 業務波中斷會導致超40% 的算效降低,而百毫秒以上光纖故障會導致算效大幅下降甚至訓練中斷。從官方獲悉,採用 WSON 重路由恢復技術,此次在兩點間將重路由恢復時間控制在 50ms 以內,可保證分散式智算業務的高可靠互聯,最大程度釋放算效。
5. 針對傳輸鏈路的高效率問題,中國電信提出分鐘級波長動態拆建解決方案來實現算與網的協同分時復用,有效提升網路資源利用率。此驗證為跨地域、跨層級、跨主體高可靠的算力協同調度奠定基礎。
以上是中國電信基於 800GWDM 現網完成業界首例千卡分散式無損智算網驗證的詳細內容。更多資訊請關注PHP中文網其他相關文章!