生成式人工智慧(AI)的快速崛起凸顯了企業採用人工智慧的驚人速度。根據Accenture最近的一份報告,98%的企業領導人表示人工智慧將在未來三到五年的策略中扮演重要角色。麥肯錫分析師發現,近65%的企業計劃在未來三年內增加對人工智慧的投資
NVIDIA、AMD和Intel正在推出專為生成式人工智慧和高效能運算(HPC)設計的新晶片,這種勢頭才剛開始。公有雲供應商和新興晶片企業也參與了競爭。 IDC分析師預測,全球對人工智慧軟體、硬體和服務的支出將達到3000億美元,超過今年預計的1540億美元
然而,擴展人工智慧仍然存在挑戰,其中最重要的是涉及支援這些工作負載所需的資料中心基礎架構的挑戰。
GPU是人工智慧和機器學習中最常見的晶片,可以加速人工智慧應用的運算過程。例如,NVIDIA的H100 GPU擁有800億個晶體管,因此會產生大量熱量,需要進行有效的冷卻
傳統上,在單一資料中心機架中達到10千瓦的配置被認為是高密度,但空氣冷卻仍然是冷卻這些伺服器的有效方法。儘管Uptime Institute發現很少有資料中心擁有超過30千瓦的機架,但極端密度正在出現。高效能運算的商品化和生成式人工智慧的興起正在增加電力需求,並使傳統的空氣冷卻方法負擔過重。
舉例來說,NVIDIA最新的GPU的最大功耗比上一代晶片高出160%。機架配置很容易超過40千瓦範圍,對於傳統的風冷方法來說,難以管理。當今的資料中心必須持續發展,以有效管理這些增加的熱負荷
幸好,我們有多種液體冷卻技術可以應對這個挑戰,其中包括越來越受歡迎的後門熱交換和直接晶片技術。新興的浸入式冷卻技術也有不同的類型,它們的本質是將IT組件浸入裝滿液體冷卻劑的容器中
儘管浸入式冷卻尚處於早期採用階段,但分析師預測,該技術將在未來四年內成為主流,市場規模將從2021年的2.51億美元成長到2027年的超過16億美元。這將極大地影響資料中心基礎設施需求,並且企業領導者必須知道他其資料中心營運商是否願意在短期內進行必要的投資來支持這種轉變。
液體作為熱導體的效率是空氣的1,000倍,而且所需的基礎設施更少。風冷系統需要複雜的冷卻設備,包括冷卻器、氣泵、電纜、濕度控制和過濾系統,以及冗餘備份系統,以確保伺服器在停電時不會失去冷卻
#相比之下,液體冷卻系統相對簡單,但在當前資料中心基礎設施中實施它可能會面臨重大挑戰,包括前期投資和複雜性。設置液體冷卻系統可能會很複雜,可能需要專門的維護。此外,伺服器設計可能需要進行調整,採用浸入式方法可能會導致原始設備製造商的保固失效,且冷卻系統洩漏可能會導致設備損壞和停機。資料中心營運商還必須考慮到使用液體冷卻系統所涉及的新法規和環境標準
也就是說,液體或浸入式冷卻系統不需要太多的備份或特殊的地板或通道密封策略。對能源消耗和成本的整體影響可能是巨大的。最近的一項研究結果發現,實施液體冷卻可以減少近20%的設施電力,總資料中心電力減少10%以上。總使用效率(TUE)是一項新指標,旨在比較高效能運算環境中液體冷卻與空氣冷卻的效率,結果顯示,液體冷卻的能源效率提高了15%以上。
過渡到液體冷卻還有其他永續發展的好處。液體冷卻系統比空氣冷卻系統需要更少的水。改造資料中心可以採用新的思維方式來縮小其實體足跡和碳足跡。熱再利用策略可以為周圍的企業和社區提供能源。這些可能性令人興奮,並且可能會像生成人工智慧本身一樣具有變革性。
對大多數企業而言,轉型為本地資料中心可能過於複雜且昂貴。另一方面,當今大部分公有雲基礎設施並非為運行大規模人工智慧應用而構建,而且雲端承載大容量工作負載的成本不斷上升,這促使許多組織尋找其他選擇
考慮到這些挑戰和機遇,擁有處理無數客戶用例的基礎設施經驗的託管資料中心供應商,可能會為許多企業提供最佳解決方案。這個領域的領導者可以提供專業知識和支持,以指導組織完成轉型。也與許多硬體原始設備製造商和液體冷卻供應商建立了重要的關係,這些供應商將推動資料中心的發展,提供多樣化的選擇來滿足客戶的獨特需求。
組織現在需要知道其資料中心營運商是否已經在計劃,也許更重要的是,是否擁有可用的實體容量或適合安裝所需的技術,以使下一代資料中心的發展成為可能。資料中心已經面臨著將工作負載轉移到滿足其要求的最佳伺服器的複雜挑戰。隨著人工智慧和高效能運算工作負載的需求不斷增加,添加根本上不同的冷卻系統的額外挑戰肯定會使這些障礙變得更加複雜。
目前正在投資這些策略的資料中心營運商將會處於有利的位置,能夠幫助他們的客戶積極應對這些挑戰。人工智慧正在改變一切,包括資料中心。現在是開始這次對話的時候了
以上是未來資料中心的發展:人工智慧與液體冷卻的融合的詳細內容。更多資訊請關注PHP中文網其他相關文章!