2023年至2026年,全球在AI系统上的支出将翻一番,显然,数据中心的容量将迅速增加,以满足需求。
然而,令人惊讶的是,在过去的一年里,许多数据中心运营商对新项目踩下了刹车,放缓了投资,伦敦的空置容量在2022-23年间下降了6.3%。
这种违反直觉的趋势背后是什么原因?要解释这一点,我们需要了解围绕AI计算和支持它的基础设施的一些问题。
数据中心历来是围绕使用CPU的机架构建的,以应对传统的计算工作负载,然而,AI计算转而需要使用GPU驱动机架,与同等的CPU容量相比,它消耗更多的电力,释放更多的热量,占用更多的空间。
在实践中,这意味着AI计算能力通常需要更多的电源连接或替代冷却系统。
这是因为嵌入式基础设施被内置在数据中心综合体的结构中,所以更换它的成本往往很高,除非在经济上完全不可行
在实践中,运营商必须保证他们的新数据中心有一定的空间专门用于AI和传统计算之间的“分割”
如果错误地过度承诺人工智能,并且忽视了这一点,可能会给数据中心运营商带来永久未充分利用和无利可图的负担
AI市场目前仍处于初级阶段,这一事实加剧了一个问题。根据Gartner的说法,目前正处于炒作周期中,预期被夸大了顶峰。因此,许多运营商选择在设计阶段保持观望,而不是过早承诺在新数据中心项目中投入大量AI计算
然而,运营商敏锐地意识到,在失去市场份额和竞争优势之前,他们只能冒着推迟投资的风险,但考虑到数据中心基础设施的许多基本要素正在被实时重写,这是一项艰巨的任务。
为了满足成为先行者的需求,同时抵消风险,运营商需要将他们的数据中心设计为在AI计算时代具有最大的效率和弹性,这需要一种全新的整体设计方法。
无论操作员决定AI和传统计算之间的确切分离,具有AI计算能力的数据中心站点有望比传统设施复杂得多。更复杂的往往意味着更多的故障点,特别是在AI计算比传统计算有更多需求的情况下。
因此,为了保证正常运行时间并降低站点生命周期内出现代价高昂的问题的风险,团队需要在数据中心的规划阶段更加彻底。
在项目开始时,特别是在设计阶段,应该寻求更广泛的团队和专业知识的投入。除了寻求电力和冷却方面的专业知识外,设计人员还应该及早接触运营、布线和安全团队,以了解潜在的瓶颈或故障来源
由于运营商现在在现场进行AI计算,他们应该利用自己的能力来提高运营的新效率。AI在数据中心的采用已经有很长时间了,这项技术能够以极高的精度和质量承担工作流。例如,AI可以在以下方面提供帮助: - 数据分析:AI可以快速而准确地分析大量数据,提供有价值的洞察和决策支持。 - 客户服务:AI可以通过自动化回答常见问题、提供个性化建议和解决问题,提升客户服务体验。 - 预测和优化:AI可以利用大数据和机器学习算法,预测未来趋势并优化运营策略。 - 安全保障:AI可以识别和阻止潜在的网络攻击,并提供实时的安全监控和预警。 - 自动化流程:AI可以自动执行重复性任务,提高工作效率和减少人为错误。 通过充分利用AI技术,运营商可以提升运营效率、提供更好的服务,并在竞争激烈的市场中取得优势
通过在数据中心生命周期的每个阶段主动使用该技术,运营商可以显著提高其运营的效率和稳健性。人工智能非常适合于帮助应对采用这些新一代数据中心新颖而复杂的布局时遇到的新挑战,例如通过故障检测和预测性维护
在高峰期,例如在培训运行期间或在生产中运行企业级模型时,AI会给数据中心带来更大的负载。在这些期间,AI计算在功耗、冷却需求和数据吞吐量方面往往会大大超出传统的预期。
在最基本的层面上,这意味着数据中心的底层材料面临更大的压力。如果这些底层材料或部件质量不高,这意味着它们更容易失败。由于人工智能计算意味着一个站点的组件和连接数量急剧增加,这意味着在传统站点中运行良好的更便宜、更低质量的材料可能会使运行人工智能计算的数据中心陷入停顿
为了避免虚假的经济风险,运营商应该避免购买质量较低的材料,比如不合格的电缆,以节省资金。这些材料容易失效,需要更频繁地更换,而且最严重的问题是,不合格的材料和部件的故障通常会导致网站停机或停机,从而影响其盈利能力。因此,运营商应该谨慎选择材料,确保其质量可靠
尽管AI计算的基础设施要求可能是运营商拖延投资的主要原因,但从长远来看,情况并非如此。 重写后的内容:虽然AI计算的基础设施要求可能是运营商推迟投资的主要原因,但从长远来看,情况并不完全如此
随着市场不确定性的消除,公司将在数据中心的传统计算和AI计算之间的分裂问题上汇聚到他们的“适中区域”。
为了确保公司在网站运营中具备一切可能的优势,随着情况的发展,他们需要确保自己的学习和成熟
这意味着从一开始就进行整体设计,利用AI本身来发现他们网站的新效率,并投资于能够满足更大的AI计算需求的高质量组件。
以上是AI如何改变数据中心设计的详细内容。更多信息请关注PHP中文网其他相关文章!