发布会现场。(华为供图)
【深圳商报讯】(记者 陈姝)人工智能从大模型逐渐走向超大模型,从单模态走向多模态,数据存储成为关键要素。以存力和算力为中心的大模型时代已经来临。7月14日,华为发布大模型时代AI存储新品,为基础模型训练、行业模型训练、细分场景模型训练推理提供存储“最优解”。
华为数据存储产品线总裁周跃峰表示,企业在开发及实施大模型应用过程中面临四大挑战:第一,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右;第二,多模态大模型以海量文本、图片为训练集,当前海量小文件的加载速度不足100MB/s,训练集加载效率低;第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天;最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。
华为针对不同行业、不同场景大模型应用,推出OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。其中,OceanStor A310深度学习数据湖存储,面向基础/行业大模型数据湖场景,实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。FusionCube A3000训/推超融合一体机,面向行业大模型训练/推理场景,针对百亿级模型应用,集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付。
在接受媒体专访时,中国工程院院士倪光南表示,数据已经成为国家的基础性战略资源。数据存储能力(简称“存力”)和信息计算能力(简称“算力”)、网络运载能力(简称“运力”)都是我国信息产业发展的核心和基础,是建设科技强国的战略支撑。他相信,储能将成为国家战略性和基础性产业,并成为新的国际竞争优势。
“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。”周跃峰在会后接受采访时表示,中国人工智能产业要高速发展,一定要重视数字化,重视数据和信息数字化的记录。数据的准备是实施近期引起轰动的AI大模型时遇到的最大挑战。根据他的说法,AI大模型的成本主要由算力成本占据了25%,而购买服务器、数据清洗和预处理等工作的成本占了22%。可见,数据以及数据的存储、处理过程变得越来越重要了。这句话的重写如下:这个重要的地方不仅在于它的数据量增加了,更重要的是在数据处理过程中变得更加复杂了。华为分布式存储领域副总裁韩振兴指出,国内将迎来存力中心的大规模发展,并预测未来会涌现更高性能的存储产品。
以上是华为发布两款AI存储新品的详细内容。更多信息请关注PHP中文网其他相关文章!