搜索
首页科技周边人工智能AI大模型驶向产业之海,需要高质数据'河道”引航

AI大模型驶向产业之海,需要高质数据'河道”引航

Dec 02, 2023 am 08:45 AM
数据导航产业布局模型驱动

在某次行业峰会上,一位来自清华大学的院士科学家透露,我们的AI大模型是在万卡集群上进行训练的,每三小时就会出现一次错误。虽然听起来有点可笑,但这已经达到了世界先进水平

风靡全球的AI大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百舸争流”之下,大家却经常会忽略一个关键问题:AI大模型带来的数据激流,也比想象中更加汹涌。

“三小时出错一次”,听起来不可思议的故障率,却是大模型从业者要面对的常态,甚至是“优等生”。目前业界的普遍做法,是写容错检查点checkpoint。既然三小时就报错,那就2.5小时停一次,写好检查点,把数据存起来,再开始训练。一旦出现故障,可以从写好的检查点恢复,避免“从头开始”、全部白干。而检查点需要存储的数据多,会耗费大量的时间。该院士团队基于llama 2架构研发的大模型,数据存一次硬件,就需要十个小时,存储效率直接影响了开发进度。

如果说大规模的异构数据,是肆意奔涌的激流,存储系统就是承载着数据流量的河道,其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞,从而卡住AI大模型的生命线。可以说,整个大模型行业的生产力和效率,都被存储规定了“上限”。

这也是为什么,存储作为AI数据基础设施,受到越来越多关注。

AI大模型驶向产业之海,需要高质数据河道”引航

11月29日,“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会,我们一起了解一下,AI大模型浪潮来袭,给存储带来的承载挑战,以及曙光存储是如何为智能产业引航,助推AI大模型百舸扬帆。

AI大模型正在进入产业的深水区,传统存储方式面临着数据的挑战

最近我去了一趟云南,发现不仅北上广等科技重地的大模型建设如火如荼,在昆明、大理等二三线城市,甚至边疆地区,都在积极地探索大模型行业应用。

各行各业走向智能化,几乎都点燃了对大模型的炽热兴趣。这时候,一个关键问题也显露了出来:AI大模型的产业化风潮,需要升级存储基础设施。

模型开发者的每一次训练,数据都在向存储系统发起多种挑战:

  1. 数据洪潮的冲击。随着大模型的产业落地,许多行业都开始训练专属模型,大量行业数据、专有数据、新的标注数据被输送给大模型,澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到,行业大模型要用高质量的数据集、文档、客户私有数据进行训练,每个项目都是单独成立标注组,数据规模持续增大,存储诉求和成本也随之增加。

AI大模型驶向产业之海,需要高质数据河道”引航

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长,采集、归类、搬迁等过程费时费力,一旦存储性能跟不上,海量文件吞吐慢、多读少写,检查点Checkpoint等待耗时久,会延缓开发进度,增加开发成本。

3.数据复杂的暗涌。此外,AI大模型要用到大量异构数据,文件格式复杂、数据集类型多样,数据数量激增,传统存储难以应对数据复杂性的挑战,容易产生消化不良的问题,造成数据访问效率低,从而造成模型运行效率下降,训练算力消耗增多,无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站,通过让AI科学计算模型学习海量图片,呈现太阳真实的样子,每天产生2TB的图片数据,当前存储的吞吐效率低,会导致训练集加载慢、数据处理周期长,拖慢研究进程。

4. 数据安全的隐忧。目前,AI大模型已经深度渗透各行业之中,在训练开发及应用落地过程中需要海量的数据支撑,其中包含行业或个人敏感信息的数据,如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。同时,模型安全风险也需重视,比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

AI大模型驶向产业之海,需要高质数据河道”引航

AI大模型驶向产业深水区,令人欣喜的是,这项技术创新正在深度融入各行各业,满足智能化需求,生机勃勃。然而,也存在一些担忧,数据工程在大模型的整个生命周期中起着重要作用,包括数据收集、清理、训练、推理部署和反馈调优等各个阶段,都需要大量的数据。然而,存储问题成为一个瓶颈,这意味着AI大模型在各个阶段都可能面临数据堵塞、故障和效率低下的情况,这将导致大模型的开发周期和综合成本非常高,超出产业的承受能力

为了避免数据淤塞,支持和培养大型模型的产业发展,我们需要对存储“河道”进行疏浚。曙光存储提供了一种新的解决方案,这为我们发现了有价值的参考案例

高质数据“航道”,曙光存储给大模型行业一个答案

经过与AI大模型开发者的交流,我得出了一个明确的结论:构建一个适配AI大模型的全新存储体系,已经不再需要讨论,关键是谁能先完成方案升级、提供实用的解决方案

洞察行业的存力需求,曙光存储打造了以ParaStor大模型专用存储为底座的AI大模型存储解决方案,写下了自己的答案。

AI大模型驶向产业之海,需要高质数据河道”引航

曙光存储AI大模型存储集群,拥有异构融合、极致性能与原生安全三大领先能力。

首先,我们可以提供千亿级的文件存储服务,它的扩展规模接近于无限。我们还特别解决了数据访问协议多样性的问题,同时支持文件、对象等多种存储协议,以避免在不同存储系统之间复制数据的情况

其次,针对AI大模型开发过程中对数据处理效率的高需求,曙光存储AI大模型存储集群可提供多级缓存加速、XDS数据加速及智能高速选路等多种数据IO性能优化能力。

为了确保全流程数据的安全,曙光存储节点提供了芯片级安全能力,并支持国密指令集。通过多级可靠性,它可以保证存储集群在训练和开发的整个周期内稳定运行,符合政策和未来的安全趋势

有人可能会问了,市面上的存储方案这么多,有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值?

AI大模型驶向产业之海,需要高质数据河道”引航

如果对各家的技术名词和产品细节云里雾里,大家不妨用几个词,记住曙光存储AI大模型存储集群的差异化价值:

1.先进。异构融合,极致性能,芯片级原生安全,展现了曙光存储的技术先进性,也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。

2.可靠。高性能AI数据基础设施基于曙光存储的自研创新,更加可靠安全,符合信创政策和未来安全趋势,可以帮助国内大模型服务商规避海外供应链风险,从供应链安全、数据安全、模型安全等多个角度,为大模型产业的发展护航。

3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度AI解决方案,支持训练开发全周期内稳定运行,可以降低综合成本,让大模型开发者和行业客户无忧前行。

总结一下,在曙光存储构建的高质“航道”上,大规模数据高效吞吐,AI大模型加速开发,因此,行业和企业可以快人一步,将大模型与垂直场景和业务深度融合,率先获得通往智能时代的船票。

第五范式的新起点,观察着众多企业竞相前进、蓬勃发展的景象

图灵奖获得者吉姆·格雷(Jim Gray),曾提出第四范式,核心是数据驱动。而随着大语言模型“智能涌现”,“智能驱动”的第五范式,更侧重于数据和智能的有机结合,成为支撑科学革命、产业革命的新底层逻辑。

一切过去的事情都是序章。人工智能如此,存储也如此

AI大模型驶向产业之海,需要高质数据河道”引航

此次大会上,凭借20年行业深耕,与在AI存储技术突破、液冷存储研发等领域的领先实践,曙光存储公司总裁惠润海获评“存储先锋”。在其领导下,多年来曙光分布式文件存储在市场中持续领跑,市场份额名列前茅。面向AI大模型的数据存储解决方案,让曙光存储又一次站到了时代前沿。

曙光存储的AI大模型存储集群,正在积极实践范式转换,以适应新的数据范式,通过数据基础设施的突破,推动大模型产业化的蓬勃发展

接下来,在存储行业的新范式、新起点,在曙光存储的高质数据“河道”上,我们会看到,行业大模型百舸争流,AI应用千帆竞渡,加速驶向智能中国。

以上是AI大模型驶向产业之海,需要高质数据'河道”引航的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:搜狐。如有侵权,请联系admin@php.cn删除
大多数使用的10个功率BI图 - 分析Vidhya大多数使用的10个功率BI图 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

AI的专家系统AI的专家系统Apr 16, 2025 pm 12:00 PM

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

三个最好的氛围编码器分解了这项代码中的AI革命三个最好的氛围编码器分解了这项代码中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

跑道AI的Gen-4:AI蒙太奇如何超越荒谬跑道AI的Gen-4:AI蒙太奇如何超越荒谬Apr 16, 2025 am 11:45 AM

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

如何注册5天ISRO AI免费课程? - 分析Vidhya如何注册5天ISRO AI免费课程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

提示:chatgpt生成假护照提示:chatgpt生成假护照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)