飞象网讯(魏德龄/文)“韩信用兵,多多益善”想必是一个脍炙人口的典故,淮阴侯当时用此来形容自己的领兵才能,当然随之还有高祖的“善将将”。而“多多益善”与“善将将”的优势在AI浪潮之下,也正在变为一种行业所必须的能力。
分析人士预测,人工智能市场将迎来长达十年以上的热潮。在企业信息技术中,对人工智能的投入比例将越来越高。人工智能对需求的刺激将是过去十年的10倍至100倍,相应的计算能力需求也将呈现同等增长。而满足这一需求的保障正是“多”个选择,因为不同的计算能力需求背后所调用的超级计算中心硬件资源并不相同。正如谚语所说,“多一些选择,多一些欢笑”。已经实现盈利的国家超级计算中心济南中心就是一个很好的例子
更多选择,更多欢笑
以目前常见的几类AI用例需求而言,很多高校进行的传统科学计算类应用就需要HPC,才能完成如仿真、模拟、洋流预测、基因检测等工作;对于传统的政务云业务、传统CRM/ERP企业数字化应用则属于传统云计算需求,就需要调用CPU类资源;目前大热的涉及道路识别、车牌识别这样的智慧城市类应用则需要调用GPU的能力。业务的多元需求恰恰决定了对于多元算力的需求。
据报道,仅仅三年前,济南的国家超级计算中心就已经拥有1000P的计算能力和超过300PB的存储容量,成为当时亚洲最大的计算中心之一。该中心包括了高性能计算、以CPU为主的传统云计算以及以GPU为主的智能计算。在智能计算领域,该中心兼顾了国内需求,并引入了一部分国产GPU,使其成为一个既具备多元计算能力又具备异构计算能力的超级计算中心
“投资建设一个平台后产生的效益取决于平台能力,因为平台能力越强,能支撑客户的业务种类就越多。客户越多,盈利模式越清晰。”三年前参与服务国家超算济南中心的青云科技总裁林源向媒体解释了缘何需要异构计算与多元算力。
反之,如果不 embrace 多元算力,仅仅建设一个只支持某一种硬件算力为核心的超算中心,往往会在后续实际运营中面临尴尬。例如,国内某大厂曾在某地建了一个计算中心,但由于只支持某一个 GPU,造成当应用需求到来时,却出现了不兼容的问题,导致客户面变窄的问题
不过,如何调度如1000P的算力与300PB存储,将多元与异构整合在一起,让超算中心实现高效运营,如同韩信用兵一般,实现多多益善,而不是陷入管理困局,同样是一个需要面对的问题。青云科技作为国家超算济南中心建设的参与者,恰恰为其提供了统领全局的能力,这就需要提到该公司近日发布的新产品—AI算力调度平台。
青云AI,多多益善
我们已经在国家超算济南中心的实践中取得了成功,这证明了青云平台的能力和成就。林源对这个产品非常有信心。青云AI算力调度平台是计算中心运营者的重要工具,可以建立从建设到运营的闭环。在国家超算济南中心的案例中,我们不仅在三年前就成功地进行了实践,还帮助中心实现了良好的运营和盈利
青云AI算力调度平台具备了像“韩信用兵,多多益善”一样的管理能力,可以统一管理GPU算力、HPC算力、多存储系统、模型资源和数据资源等多种资源,实现算力平台的自动化管理。此外,该平台还能根据不同行业的需求进行资源分发,并具备分布式调度与管理能力,自动分配和管理算力资源,大大缩短任务执行时间,提高工作效率,让客户专注于业务创新和应用开发
平台的管理操作也易如反掌,通过统一运营和运维管理平台,实现多种服务场景的运营化服务的后时,规范化高效运维,帮助用户实现精细化运营。青云会为平台管理员交付一个可视化的大屏管理界面,可轻松浏览全国的上千台算力资源与存储。以国家超算济南中心为例,后端其实只需要10-20人的团队,就能实现对于软件的运维,并解决客户的各类问题。
青云科技通过使用一套运营运维平台,使得定价、打折、促销等操作只需在页面上点击按钮即可完成。青云科技的产品经理苗慧表示,与传统的云计算申请表等日常流程相比,青云的AI算力调度平台在运维效率方面具有明显的优势
与此同时,青云AI算力调度平台还可帮助客户解决网络交换速度、环境搭建、多业务整合等问题。
除了大幅提升平台运维人员的管理能力外,对于平台用户而言,青云也能进一步提升AI落地的开发效率。面向算法工程师,青云提供的开发主机,已经内置了一些开发环境和IDE环境,工程师可将Python工程文件等直接传上去,在线写代码、调试、运行,立即找到所需的训练集群。推理完成后,还能实现算法调优,通过算力集群与模型不断优化代码。
此外,青云还提供了在线培训平台,将高性能计算和GPU卡等进行整合。在专属环境中,青云提供了一个GPU服务器在线申请构建集群的选项,所有的网络和环境都可以一键生成。同时,青云还会根据行业内常用的模型和小工具进行集成
容器推理平台支持一键部署高性能的Kubernetes集群。在推理过程中,如果遇到性能瓶颈,可以实现负载均衡和弹性伸缩
青云还提供了模型仓库,方便客户可以通过模型市场立即部署自己的模型,调用自身的服务。同时,还能给予模型进行微调,或在线通过云平台的形式一键获取。
总的来说,青云AI算力调度平台以类似于管理本地资源的方式来管理AI基础设施,提供多元化的算力调度和智能化的算力调度,确保算力能够快速投入使用
开放生态,让客户“善将将”
作为一家具备“多多益善”能力的青云AI算力调度平台,我们面临的第二个问题是,是否有机会让用户也具备“善将将”的实力。实际上,在未来的AI时代,由于投资巨大,单一企业可能很难实现全面覆盖,因为每个方面的成本都将比过去十年更高。举个例子,一个大型模型可能需要耗费大量的人力、算力、金钱和时间成本,而CPU和IDC建设等方面也是如此。因此,青云正在与不同领域的合作伙伴一起实现能力的整合
我们有一个大胆的设想,AI领域将会出现一个巨头。然而,我们认为这个巨头不应该是一家独立的公司,而应该是一个小型生态系统。林源隆引出了青云AI算力云服务的定位,即通过开放生态同盟的方式共同运营
这一设想主要基于三方面的考虑,首先是生态将能够满足客户需要完整解决方案的需求,其次每位专业参与者间都有着彼此的需求,并彼此保持开发,最终志同道合形成长期共赢的同盟。
从客户需求上看,客户需求的完整解决方案包括机房、算力、调度平台、模型、模型驱动、Model Service,以及可以运行的应用。其中从算力、模型、服务到应用场景每一层都需要极强的专业性。
青云AI算力生态体系目前已经围绕AI算力基础设施的生态共享、AI算力大模型的资源整合以及AI数据资源的生态整合实现了构建,进而更好地帮助企业实现真正的业务价值。林源在媒体采访过程中将其分类为技术生态与商业生态,其中技术生态包括GPU与模型生态,商业生态则包括计算中心的投资建设、AI最终客户等
目前青云已经实现了从适配、MaaS、共筑到最终落地的生态体系整合,涵盖了从各大知名芯片厂商、模型开发商、云数据中心提供商等多层面的联手。对于青云AI算力云的客户而言,正如同是可以调动大量名将的AI开拓者,达到“善将将”的效果。
林源表示,在每个新时代到来之际,人们都站在同一起跑线上,而新时代可能需要一些新的合作模式和玩法。他认为,人工智能时代的到来可能会带来新的格局变化
“多多益善”之后的成功故事自不必表,如今AI正被视作是云服务之后的又一新机遇,“能做、做过,做成功了”的青云AI恰巧也已经展现出了“多多益善”的自信,后续的精彩篇章正在开启。
以上是迎接人工智能新机遇:青云AI的无限潜能与不断进化的详细内容。更多信息请关注PHP中文网其他相关文章!