2023年至2026年,全球在AI系統上的支出將翻一番,顯然,資料中心的容量將迅速增加,以滿足需求。
然而,令人驚訝的是,在過去的一年裡,許多資料中心營運商對新專案踩下了煞車,放緩了投資,倫敦的空置容量在2022-23年間下降了6.3%。
這種違反直覺的趨勢背後是什麼原因?要解釋這一點,我們需要了解圍繞AI計算和支持它的基礎設施的一些問題。
資料中心歷來是圍繞使用CPU的機架構建的,以應對傳統的計算工作負載,然而,AI計算轉而需要使用GPU驅動機架,與同等的CPU容量相比,它消耗更多的電力,釋放更多的熱量,並佔用更多的空間。
在實踐中,這意味著AI運算能力通常需要更多的電源連接或替代冷卻系統。
這是因為嵌入式基礎設施被內建在資料中心綜合體的結構中,所以更換它的成本往往很高,除非在經濟上完全不可行
在實踐中,運營商必須保證他們的新數據中心有一定的空間專門用於AI和傳統計算之間的“分割”
#如果錯誤地過度承諾人工智能,並且忽視了這一點,可能會給數據中心營運商帶來永久未充分利用和無利可圖的負擔
AI市場目前仍處於初級階段,這一事實加劇了一個問題。根據Gartner的說法,目前正處於炒作週期中,預期被誇大了頂峰。因此,許多營運商選擇在設計階段保持觀望,而不是過早承諾在新資料中心專案中投入大量AI計算
然而,營運商敏銳地意識到,在失去市場份額和競爭優勢之前,他們只能冒著推遲投資的風險,但考慮到資料中心基礎設施的許多基本要素正在被即時重寫,這是一項艱鉅的任務。
為了滿足成為先行者的需求,同時抵消風險,營運商需要將他們的資料中心設計為在AI運算時代具有最大的效率和彈性,這需要一種全新的整體設計方法。
無論操作員決定AI和傳統運算之間的確切分離,具有AI運算能力的資料中心站點有望比傳統設施複雜得多。更複雜的往往意味著更多的故障點,特別是在AI計算比傳統計算有更多需求的情況下。
因此,為了確保正常運作時間並降低網站生命週期內出現代價高昂的問題的風險,團隊需要在資料中心的規劃階段更加徹底。
在專案開始時,特別是在設計階段,應該尋求更廣泛的團隊和專業知識的投入。除了尋求電力和冷卻方面的專業知識外,設計人員還應該及早接觸營運、佈線和安全團隊,以了解潛在的瓶頸或故障來源
由於營運商現在在現場進行AI計算,他們應該利用自己的能力來提高營運的新效率。 AI在資料中心的採用已經有很長時間了,這項技術能夠以極高的精度和品質承擔工作流程。例如,AI可以在以下方面提供幫助: - 數據分析:AI可以快速且準確地分析大量數據,提供有價值的洞察和決策支援。 - 客戶服務:AI可以透過自動化回答常見問題、提供個人化建議和解決問題,提升客戶服務體驗。 - 預測和最佳化:AI可以利用大數據和機器學習演算法,預測未來趨勢並優化營運策略。 - 安全保障:AI可以識別和阻止潛在的網路攻擊,並提供即時的安全監控和預警。 - 自動化流程:AI可以自動執行重複性任務,提高工作效率和減少人為錯誤。 透過充分利用AI技術,營運商可以提升營運效率、提供更好的服務,並在競爭激烈的市場中取得優勢
透過在資料中心生命週期的每個階段主動使用該技術,營運商可以顯著提高其營運的效率和穩健性。人工智慧非常適合於幫助應對採用這些新一代資料中心新穎而複雜的佈局時遇到的新挑戰,例如透過故障檢測和預測性維護
在高峰期,例如在培訓運行期間或在生產中運行企業級模型時,AI會為資料中心帶來更大的負載。在這些期間,AI運算在功耗、冷卻需求和資料吞吐量方面往往會大大超出傳統的預期。
在最基本的層面上,這意味著資料中心的底層材料面臨更大的壓力。如果這些底層材料或零件品質不高,這意味著它們更容易失敗。由於人工智慧運算意味著一個站點的組件和連接數量急劇增加,這意味著在傳統站點中運行良好的更便宜、更低質量的材料可能會使運行人工智能計算的數據中心陷入停頓
為了避免虛假的經濟風險,業者應該避免購買品質較低的材料,例如不合格的電纜,以節省資金。這些材料容易失效,需要更頻繁地更換,最嚴重的問題是,不合格的材料和零件的故障通常會導致網站停機或停機,從而影響其盈利能力。因此,營運商應該謹慎選擇材料,確保其品質可靠
儘管AI計算的基礎設施要求可能是營運商拖延投資的主要原因,但從長遠來看,情況並非如此。 重寫後的內容:雖然AI運算的基礎設施要求可能是營運商推遲投資的主要原因,但從長遠來看,情況並不完全如此
隨著市場不確定性的消除,公司將在資料中心的傳統計算和AI計算之間的分裂問題上匯聚到他們的“適中區域”。
為了確保公司在網站運作中具備一切可能的優勢,隨著情況的發展,他們需要確保自己的學習和成熟
這意味著從一開始就進行整體設計,利用AI本身來發現他們網站的新效率,並投資於能夠滿足更大的AI運算需求的高品質元件。
以上是AI如何改變資料中心設計的詳細內容。更多資訊請關注PHP中文網其他相關文章!