最近,中国工业和信息化部与宁夏回族自治区人民政府共同举办了2023中国算力大会,该大会在银川举行。会上,由算力领域的专家学者共同评选出的算力中国·年度突破成果被公布,其中阿里云的“PAI灵骏智算服务”作为国内AI智算基础设施代表荣获了这一重要荣誉
该评选为攻坚算力领域中的热点、难点和关键问题设立,秉承“开创性、引领性、权威性、公平性”原则,旨在发掘在算力或相关产业达到全球领先水平的基础理论、创新方法、方法模式和平台应用的创新成果。评审委员会由中国科学院院士、中国工程院院士、知名高校及科研机构专家、领军企业技术带头人组成,集聚中国算力相关领域极具影响力的专家学者。
阿里云推出的PAI灵骏智算服务是为了满足快速增长的AI计算需求而打造的算力基础设施服务。该服务可以为企业和开发者提供一站式的AI开发全流程工程平台和智能算力。它具有超大的并行计算规模、高性能、高效率和高利用率等特点。该服务的集群可扩展规模可达到10万卡量级,可以支持多个万亿参数的大模型同时训练,其中单个训练任务可达到万卡规模,千卡规模的线性扩展效率达到92%
在此前实践锤炼中,PAI灵骏智算服务稳定支撑了10万亿参数多模态大模型的低能耗训练,在通义千问等大模型的训练和应用中,将大模型训练效率显著提高近 10 倍,推理效率提升2倍以上。
该评选认为,阿里云PAI灵骏智算服务“以高性能网络、高性能文件存储、高稳定性、极致软硬件联合优化能力和serverless化服务能力,为大模型研究、AI for Science、AIGC等场景提供坚实支撑”。
派灵骏智算服务在多个核心技术领域具备领先性和创新性。大规模模型训练需要处理数十亿个参数,不仅仅依靠简单的“堆显卡”就能完成,而是需要综合底层算力、网络、存储、数据计算、AI框架等复杂技术的系统工程。除了通过精巧的设计实现大规模计算工程的实施,还需要实现“又快又省”,充分发挥每一滴算力性能
在IaaS基础设施层,阿里云打造了智能计算集群灵骏,通过端网一体、软硬融合的可预期网络技术对集群计算资源进行统筹和优化,实现芯片间微秒级稳定互联和高效并行计算。相关技术创新大幅消除了AI算力拓展性瓶颈,灵骏集群规模最大可拓展至“10万卡级”,能为大模型的开发和应用提供灵活多尺度的智能算力,对上层平台应用提供便捷的容器化服务。
在PaaS平台服务层,阿里云机器学习平台PAI可对庞大训练任务进行自动分拆和分配,通过硬件、网络、框架一体化协同调度能力,提供速度最快、算力最省的高性能分布式训练方案。同时,PAI配置了自动容错训练框架AIMaster,在大语言模型动辄数周、数月的训练周期中,提供极致的稳定性保障,减少人工介入成本,可将大模型训练时间缩短10倍。此外,PAI提供简单易用的RLHF强化学习框架,能大幅提升大语言模型效果表现。
PAI灵骏智算服务还推出了国内首个无服务器化智算服务模式,为用户提供一键开通、按需分配、极简运维的用户体验。该服务支持灵活复用AI计算资源,能够显著提高集群利用率,降低客户的使用成本
据了解,阿里云PAI灵骏智算服务已被众多企业及科研单位应用。阿里云与小鹏汽车合建的智算中心“扶摇”成为国内超大的自动驾驶智算中心,将小鹏汽车自动驾驶模型训练速度提升170倍以上。阿里云与复旦大学共同打造的云上智算平台CFFF,近期发布了45亿参数量的中短期天气预报大模型,将预测速度从原来的小时级缩短到了3秒内。
为了推广内容而进行改写,需要将原文改写成中文,不需要出现原句
以上是阿里云AI智算荣获'算力中国”年度突破成果奖的详细内容。更多信息请关注PHP中文网其他相关文章!