加速人工智慧專案的預設方法是增加GPU叢集的規模。然而,由於GPU供應日益緊張,成本也越來越高。許多人工智慧公司將超過80%的籌集資本用於運算資源,這是可以理解的。 GPU是人工智慧基礎設施的關鍵,應該盡可能投入預算。然而,在這些高昂的成本之外,還有其他提高GPU效能的方法需要考慮,而且越來越迫切
擴展GPU集群並非易事,特別是在生成式人工智慧暴力擴張導致GPU短缺的情況下。 NVIDIA A100 GPU是受到影響的首批GPU之一,而且現在非常稀缺,有些版本的交付週期長達一年。這些供應鏈挑戰迫使許多人考慮將更高端的H100作為替代品,但很明顯會付出更高的價格。對於那些投資自己基礎設施、為其產業創造下一個偉大的生成式人工智慧解決方案的創業者來說,需要從現有GPU中榨取每一滴效率
讓我們來看看企業如何透過提議修改人工智慧基礎設施的網路和儲存設計,從中獲得更多的運算投資
資料問題
優化現有運算基礎設施的使用率是一個重要的方法。為了最大化GPU利用率,需要解決資料傳輸速度過慢的問題,以確保GPU保持高負載運作。有些用戶的GPU利用率僅20%,這是不可接受的。因此,人工智慧團隊正在尋找最佳途徑,以最大化人工智慧投資的回報
GPU是人工智慧的引擎。就像汽車引擎需要汽油才能運作一樣,GPU也需要數據來運算。如果限制了資料流,就會限制GPU的效能。如果GPU的工作效率只有50%,那麼人工智慧團隊的生產力就會下降,一個專案完成所需的時間會增加一倍,投資報酬率也會減半。因此,在基礎設施設計中,必須確保GPU能夠以最高效率運行,並提供預期的運算效能
需要注意的是,DGX A100和H100伺服器都有高達30 TB的內部儲存容量。然而,考慮到平均模型大小約為150 TB,這個容量對於大多數深度學習模型來說是不夠的。因此,需要額外的外部資料記憶體來為GPU提供資料
儲存效能
AI儲存通常由伺服器、NVMe SSD和儲存軟體組成,它們通常封裝在一個簡單的設備中。就像GPU被優化為與數以萬計的核心並行處理大量資料一樣,儲存也需要具備高效能。在人工智慧中,儲存的基本要求是能夠儲存整個資料集,並以線速(即網路允許的最快速度)將資料傳輸到GPU,以保持GPU的高效運作和飽和。任何不足都會導致對這些非常昂貴和有價值的GPU資源的浪費
透過交付資料與能夠跟上10或15台GPU伺服器叢集全速運行的速度,有助於優化GPU資源並提高整個環境的性能,同時盡可能充分利用預算,從整個基礎設施中獲得最大收益
事實上,挑戰在於,沒有針對AI進行優化的存儲供應商需要許多客戶端運算節點來從儲存中提取全部效能。如果從一個GPU伺服器開始,則反過來需要許多儲存節點才能達到該效能才能為單一GPU伺服器供應。
重寫後的內容:不要輕信所有的基準結果;當使用多個GPU伺服器時,可以輕鬆獲得更大的頻寬,但是人工智慧依賴於存儲,無論何時需要,它都會將所有效能提供給單一GPU節點。堅持使用能夠提供所需超高性能的存儲,但它可以在單個存儲節點中實現這一點,並且能夠將此性能提供給單個GPU節點。這可能會限制市場範圍,但在開始人工智慧專案之旅時,這是一個優先考慮的事項
網路頻寬
越來越強大的運算能力推動了對其他人工智慧基礎設施的需求不斷增加。頻寬需求已經達到了新的高度,能夠管理每秒從儲存設備透過網路發送並由GPU處理的大量資料。儲存設備中的網路介面卡(NIC)連接到網路中的交換機,這些交換機連接到GPU伺服器內部的適配器。 NIC可以在正確配置的情況下將儲存直接連接到1或2個GPU伺服器中的NIC,不會出現瓶頸,確保頻寬足夠高,可以將最大資料負載從儲存傳遞到GPU,使其在持續的時間內部保持飽和,這是關鍵,在許多情況下,未能做到這一點是我們看到GPU利用率較低的原因。
GPU編排
一旦基礎設施就位,GPU編排和分配工具將極大地幫助團隊更有效率地集結和分配資源,了解GPU的使用情況,提供更高層級的資源控制,減少瓶頸並提高使用率。只有在底層基礎設施能夠確保資料正確流動的情況下,這些工具才能如預期地完成所有這些任務
在人工智慧領域,資料是輸入的關鍵。因此,傳統企業閃存在用於企業關鍵任務應用程式(如庫存控制資料庫伺服器、電子郵件伺服器、備份伺服器)時,並非與人工智慧相關。這些解決方案是使用傳統協議構建的,儘管它們已被重新用於人工智慧,但這些傳統基礎限制了它們在GPU和AI工作負載方面的性能,推高了價格,並浪費了資金在過於昂貴和不必要的功能上
在當前全球GPU短缺的情況下,再加上人工智慧產業的快速發展,尋找最大限度提高GPU效能的方法變得前所未有的重要— —尤其是在短期內。隨著深度學習計畫的蓬勃發展,這些方法成為降低成本和提高產出的幾個關鍵途徑
以上是最大化利用GPU效能的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Schmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

大型語言模型(LLM)路由:通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver CS6
視覺化網頁開發工具