人工智能学科起源于1956年,之后在接下来的半个世纪中几乎没有取得进展,算力和数据的发展远远落后于算法。然而,随着2000年进入互联网时代,算力的限制被打破,人工智能逐渐渗透到各行各业,并迎来了大规模模型时代的开启。然而,高质量的数据似乎成为了人工智能发展的最后的“瓶颈”
华为OceanStor Pacific在最近举行的全国高性能计算学术年会(CCF HPC China 2需要重写的是:023)上荣获了“AI 存力底座最佳创新奖”
AI存力的理念的出现实际上从侧面体现了数据对于AI价值的不断提升
需要重写的内容是:01
数据决定人工智能的智能水平
人工智能的发展是一个不断收集和分析数据的过程。数据作为信息的载体,是人工智能学习和理解世界的基础。通用智能是人工智能发展的最终目标,它能够自主地学习、理解、推理和解决问题,而数据是推动其发展的最大动力
那么,数据越多,AI就越智能吗?只要有大量的数据,AI就能够超越专家的作用吗?
以医学领域的人工智能系统为例,许多诊断案例实际上没有唯一正确的答案。在医学诊断中,每组症状都有一系列不同概率的可能病因,因此人工智能的辅助决策可以帮助临床医生缩小可能的病因范围,直到找到解决方案。在这种情况下,医学人工智能依赖的不是大量数据,而是准确且高质量的数据,只有这样才能确保在“筛查”时不会错过真正可能的病因
数据质量对于AI智能的重要性在这个典型示范中得到了体现
在人工智能行业中,一直存在着一个共识,即“垃圾进,垃圾出”。这意味着,如果没有高质量的数据输入,无论算法有多先进,计算能力有多强大,都无法产生高质量的结果
在当今时代,我们正处于大模型的风口之上。人工智能的大模型如雨后春笋般不断涌现。华为的盘古、讯飞的星火、紫东的太初等中国的一批大模型正在快速发展,致力于构建跨行业通用的人工智能能力平台,为各行各业的数字化转型提供动力
根据中国科技部新一代人工智能发展研究中心于五月底发布的《中国人工智能大模型地图研究报告》,已有79个拥有十亿参数规模以上的大模型在中国发布。虽然“百模大战”的格局已经形成,但这也引发了对大模型发展的深入思考
基于小规模数据建立的模型,其表达能力受限于数据规模,只能进行粗粒度的模拟与预测,在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型
重写后的内容是:这意味着数据的数量决定了AI智能的程度。无论数据的质量如何,数据的数量都是建设“AI存力”所需重点关注的领域
需要重写的是:02
在大数据时代,数据所面临的挑战
随着人工智能向大型模型和多模态发展,企业在开发或实施大型模型应用时面临着许多挑战
首先,数据预处理的周期很长。由于数据分布在不同的数据中心、不同的应用和不同的系统中,存在归集速度慢等问题,导致预处理百TB数据需要大约10天的时间,系统的利用率从一开始就需要提高效率
其次,训练集加载效率低的问题需要解决。现在大型模型的规模越来越庞大,参数级别达到千亿甚至万亿,训练过程需要大量的计算资源和存储空间。例如,多模态大型模型以海量文本和图片作为训练集,但是当前海量小文件的加载速度较慢,导致训练集加载效率不高
此外,还面临着大型模型参数频繁调优、训练平台不稳定的挑战,平均每两天就会出现一次训练中断。为了恢复训练,需要使用检查点机制,而故障恢复的时间则超过一天,给业务连续性带来了很多挑战
为了在AI大模型时代取得成功,我们需要同时关注数据的质量和数量,并构建大容量、高性能的存储基础设施。这已经成为了取得胜利的关键要素
需要重新写作的内容是:03
AI时代的关键在于存力底座
随着大数据、人工智能等技术与高性能计算的结合,高性能数据分析(HPDA)成为实现数据价值的新形式。通过利用更多历史数据、多元异构算力和分析方法,HPDA能够提高分析精度。这标志着科学研究迈向智能化的新阶段,人工智能技术将加速前沿成果的应用
如今,科研领域正在出现一种基于"数据密集型科学"的新范式。这种范式更加注重将大数据知识挖掘和人工智能训练推理技术相结合,通过计算和分析来获取新的知识和发现。这也意味着对于底层数据基础设施的需求将会发生根本性的改变。无论是高性能计算还是人工智能的未来发展,都需要建立先进的存储基础设施来应对数据的挑战
解决数据挑战需要从数据存储创新入手,这正如谚语所说的解铃还须系铃人
AI存力底座是基于OceanStor Pacific分布式存储开发的,并秉承AI Native设计理念,以满足AI各个环节的存储需求。AI系统对存储提出了全面的挑战,包括数据计算加速、数据存储管理以及数据存储和计算之间的高效流通等等。通过采用“大容量存储 + 高性能存储”的组合,可以确保存储资源的调度和协调一致,使每个环节都能高效运转,从而充分释放AI系统的价值
OceanStor Pacific分布式存储如何展现其核心能力呢?
首先,技术架构在业界是独创的。这套存储系统支持无限横向扩展,并且能够处理混合负载,既能高效处理小文件的IOPS,也能高速读写大文件的带宽。它具备智能的性能层和容量层数据分级流转功能,能够实现对海量数据的归集、预处理、训练和推理等全流程的AI数据管理。此外,它还具备与HPC和大数据相同的数据分析能力
重写后的内容为:其次,业内效率最佳的提升方法是通过存储的创新。首先是数据编织,即通过GFS全局文件系统将分散在不同地区的原始数据接入,实现跨系统、跨地区、跨多云的全局统一数据视图和调度,简化数据收集过程。其次是近存计算,通过存储内嵌的算力实现对近数据的预处理,减少无效数据传输,同时降低预处理服务器的等待时间,从而显著提高预处理效率
实际上,"百模大战"并不是AI大模型发展的"标志"。未来,各行各业都将通过AI大模型的能力来推动数字化转型的深入发展,同时数据基础设施的建设也将加速推进。OceanStor Pacific分布式存储在技术架构的创新和高效率的表现,已经证明自己是行业的首选
我们明白,数据已经成为与土地、劳动力、资本、技术并列的新型生产要素。过去数字化市场中的许多传统定义和运行模式都将被重新书写。只有先存力,才能确保数据驱动的人工智能大模型时代稳步向前
以上是AI大模型时代的发展需要先进的存储技术来实现稳定的进展的详细内容。更多信息请关注PHP中文网其他相关文章!