首页 >科技周边 >人工智能 >优化数据中心以适应AI工作负载的四种方法

优化数据中心以适应AI工作负载的四种方法

PHPz
PHPz转载
2023-12-14 16:51:511232浏览

优化数据中心以适应AI工作负载的四种方法

AI有望以多种方式改变数据中心,例如改变数据中心就业市场以及改进数据中心监控和事件响应操作。

然而,人工智能可能对数据中心产生的最大影响是改变数据中心的工作方式。对于那些想要充分利用现代人工智能技术的企业来说,数据中心所容纳的基础设施及其管理方式必须有所改变

AI对数据中心的发展将带来一系列值得期待的关键变化,然而具体的影响还有待观察

AI对数据中心的独特需求

要评估人工智能对数据中心的影响,首先需要了解人工智能工作负载与数据中心中其他类型的工作负载(如标准应用托管)之间的区别

虽然人工智能(AI)的工作负载形式各不相同且要求各异,但大多数都具备以下独特需求:

  • 需要大量的计算资源,尤其是在执行模型训练的时候。
  • 运行在裸机硬件上使其从中受益,特别是那些可访问GPU资源的服务器。
  • 资源消耗率可能会大幅波动。在训练阶段,AI工作负载需要大量的资源,但训练完成之后,大多数情况下资源消耗会显着下降,直到再一次训练模型。
  • 需要超低延迟的网络才能实时做出决策并交付结果。

当然,还有其他类型的工作负载可能有这些要求。例如,运行人工智能应用和服务并不是唯一可以从裸机服务器中受益的案例。但总的来说,与其他类型的工作负载相比,人工智能软件对上述资源的需求更多

为了AI升级数据中心

为了优化AI工作负载的设施,许多数据中心运营商需要做出改变,以满足AI独特的需求。以下是数据中心在这方面的关键升级。

  1. 重新设计或更换裸机服务器

虚拟机在过去十年一直是托管工作负载的首选基础设施资源。然而,随着人工智能应用和服务对裸机硬件的需求增加,越来越多的数据中心运营商可能会意识到扩展裸机产品的重要性

在某些方面,这实际上是简化了数据中心的运营。如果你在裸机上运行工作负载,最终会得到一个不太复杂的托管堆栈,因为你没有混合使用虚拟机管理程序和虚拟机编排器。

另一方面,为了扩展托管工作负载的裸机基础设施,可能需要对数据中心中的托管服务器和机架进行更新和升级。传统上,在数据中心中设置服务器的最简单方法是配置强大的裸机机器,并根据工作负载的需求将其分配给任意数量的虚拟机。但是,如果需要直接在裸机上运行工作负载,可能需要更多的服务器来隔离工作负载-这意味着数据中心需要将高功率服务器替换为较小的服务器,并相应地更新服务器机架

  1. 共享支持GPU的服务器

AI应用的日常操作并不一定需要GPU支持,尽管在进行AI工作负载的训练时使用GPU服务器是有益的。因此,许多企业只需要临时访问支持GPU的基础设施即可

为了满足企业共享GPU基础设施的需求,数据中心运营商应该考虑提供相关产品。有些企业仅在少数情况下需要配备GPU的服务器,因此数据中心运营商可以通过GPU即服务的方式,临时提供GPU资源的访问,从而更好地吸引那些有AI工作负载需求的企业

  1. 增强的网络解决方案

大部分企业级数据中心已经能够访问高性能网络基础设施,并且提供了互连服务,以便快速将数据移动到外部设施。然而,为了充分发挥人工智能的作用,数据中心网络产品可能需要更强大的功能

那些具有人工智能工作负载的企业需要具备两个关键功能:首先,需要高带宽的网络连接,能够快速传输大量数据,在分布式基础设施上训练人工智能模型时尤为重要。其次,网络需要提供低延迟,这对于希望实现实时执行的人工智能应用和服务至关重要

  1. 更高的数据中心灵活性

由于AI工作负载的资源需求波动很大,因此可能需要在支持基础设施数量方面更加灵活的数据中心。AI还可能让人们更加需要能够让企业在其他数据中心内按需部署服务器、而不是自己设置这些服务器的服务,因为按需基础设施是解决资源需求波动的一个好方法。

为此,那些想要优化AI的数据中心运营商应该考虑使其设施更加灵活的产品。短期合同,和那些不仅仅包括了客户可以建立自己基础设施的机架空间服务,二者的结合可能对于那些需要部署AI工作负载的组织来说是有吸引力的。

结论

AI变革仍在上演,现在想要确切地知道AI将如何改变数据中心的运营方式或者其中部署的基础设施类型,还为时过早。但可以相对肯定地是,支持GPU的服务器和更灵活的解决方案等变化,可能在以AI为中心的世界中变得至关重要。想要分一杯羹的数据中心运营商应该确保更新他们的设施,以满足AI工作负载的独特要求。

以上是优化数据中心以适应AI工作负载的四种方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文转载于:51cto.com。如有侵权,请联系admin@php.cn删除