9月23日消息,华为在今日的全联接大会2023期间发布了一项重大突破,正式推出了Atlas 900 SuperCluster,这是一款全新架构的昇腾AI计算集群,专门设计用于支持超大规模模型训练,参数容量高达万亿级别。
华为企业BG总裁兼ICT基础设施业务管理委员会主任汪涛在发布会上介绍了这一创新产品,他表示,Atlas 900 SuperCluster采用了最新一代的华为星河AI智算交换机CloudEngine XH16800,该交换机具备高密度的800GE端口能力,使得只需要两层交换网络即可构建一个拥有2250个节点的超大规模集群,相当于18000张计算卡的规模。
这款集群采用了全新的超节点架构,极大提升了大模型训练的性能,这一点尤为引人注目。汪涛强调,大算力已经成为推动人工智能发展的核心引擎。为了满足日益增长的计算需求,华为进行了系统架构创新,将算力、运力、存力融为一体,成功突破了大算力瓶颈
根据小编的了解,为了进一步推动大型模型的创新,华为推出了CANN7.0。这是一个更加开放、易于使用的平台。它不仅与业界主流的AI框架、加速库和大型模型兼容,还深度开放底层能力,使得AI框架和加速库可以更加灵活地调用和管理计算资源,为开发者提供了更多自定义高性能算子的可能性
华为在计算、网络、存储、能源等领域的综合优势,使得这一新集群在器件级、节点级、集群级和业务级全面提升了系统的可靠性,将大模型训练的稳定性从天级提升到了月级水平。这个突破性的产品将为人工智能领域的发展提供更强大的支持,推动大模型时代的到来。
以上是華為推出Atlas 900 SuperCluster,引領大規模模型訓練的全新時代的詳細內容。更多資訊請關注PHP中文網其他相關文章!