雖然Google早在2020年,就在自家的資料中心上部署了當時最強的AI晶片—TPU v4。
但直到今年的4月4日,Google才首次公佈了這台AI超算的技術細節。
#論文網址:https://arxiv.org/abs/2304.01433
比起TPU v3,TPU v4的效能高出2.1倍,而整合4096個晶片之後,超算的效能更是提升了10倍。
另外,Google也聲稱,自家晶片要比英偉達A100更快、更節能。
論文中,Google表示,對於規模相當的系統,TPU v4可以提供比英偉達A100強1.7倍的性能,同時在能源效率上也能提升1.9倍。
另外,Google超算速度還要比Graphcore IPU Bow快約4.3倍至4.5倍。
Google展示了TPU v4的封裝,以及4個安裝在電路板上的封裝。
與TPU v3一樣,每個TPU v4包含兩個TensorCore(TC)。每個TC包含四個128x128矩陣乘法單元(MXU),一個具有128個通道(每個通道16個ALU),以及16 MiB向量記憶體(VMEM)的向量處理單元(VPU)。
兩個TC共用一個128 MiB的公共記憶體(CMEM)。
值得注意的是,A100晶片與Google第四代TPU同時上市,那麼其具體效能比較如何?
Google分別展示了在5個MLPerf基準測試中每個DSA的最快效能。其中包括BERT、ResNET、DLRM、RetinaNet、MaskRCNN。
其中,Graphcore IPU在BERT和ResNET提交了結果。
如下顯示了兩個系統在ResNet和BERT的結果,點之間的虛線是基於晶片數的插值。
TPU v4和A100的MLPerf結果都擴展到比IPU更大的系統(4096個晶片對比256個晶片)。
對於相似規模的系統,TPU v4在BERT上比A100快1.15倍,比IPU快約4.3倍。對於ResNet,TPU v4分別快速1.67倍和約4.5倍。
對於在MLPerf基準測試上的功耗使用情況,A100平均上使用了1.3倍至1.9倍的功率。
峰值每秒浮點運算次數是否能預測實際效能?許多機器學習領域的人認為峰值每秒浮點運算次數是一個很好的效能代理指標,但實際上並非如此。
例如,儘管在峰值每秒浮點運算次數上僅具有1.10倍的優勢,TPU v4在兩個MLPerf基準測試上比IPU Bow在相同規模的系統上快4.3倍至4.5倍。
另一個例子是,A100的峰值每秒浮點運算次數是TPU v4的1.13倍,但對於相同數量的晶片,TPU v4卻快1.15倍至1.67倍。
如下圖所示使用Roofline模型展示了峰值FLOPS/秒與記憶體頻寬之間的關係。
那麼,問題來了,為什麼谷歌不跟英偉達最新的H100比較呢?
Google表示,由於H100是在Google晶片推出後使用更新技術製造的,所以沒有將其第四代產品與英偉達目前的旗艦H100晶片進行比較。
不過Google暗示,它正在研發一款與Nvidia H100競爭的新TPU,但沒有提供詳細資訊。谷歌研究員Jouppi接受路透社採訪時表示,Google擁有「未來晶片的生產線」。
在ChatGPT和Bard「決一死戰」的同時,兩個龐然大物也在幕後努力運行,以保持它們的運作-英偉達CUDA支持的GPU(圖形處理單元)和Google定制的TPU(張量處理單元)。
換句話說,這已經不再是關於ChatGPT與Bard的對抗,而是TPU與GPU之間的對決,以及它們如何有效地進行矩陣乘法。
由於硬體架構方面的出色設計,英偉達的GPU非常適合矩陣乘法任務-能有效地在多個CUDA核心之間實作並行處理。
因此從2012年開始,在GPU上訓練模型便成為了深度學習領域的共識,至今都未曾改變。
而隨著NVIDIA DGX的推出,英偉達能夠為幾乎所有的AI任務提供一站式硬體和軟體解決方案,這是競爭對手由於缺乏知識產權而無法提供的。
相比之下,Google則在2016年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優化的客製化ASIC(專用積體電路),也針對自家的TensorFlow框架進行了最佳化。而這也讓TPU在矩陣乘法之外的其他AI運算任務中具有優勢,甚至還可以加速微調和推理任務。
此外,GoogleDeepMind的研究人員也找到了一種能夠創造出更好矩陣乘法演算法的方法-AlphaTensor。
然而,即便Google透過自研的技術和新興的AI運算優化方法取得了良好的成果,但微軟與英偉達長久以來的深度合作,則透過利用各自在產業上的積累,同時擴大了雙方的競爭優勢。
第四代TPU
#時間回到21年的GoogleI/O大會上,劈柴首次公佈了Google最新一代AI晶片TPU v4。
「這是我們在Google上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。」
########################### ##########這次的改進已經成為建立AI超算的公司之間競爭的關鍵點,因為像Google的Bard、或OpenAI的ChatGPT類似的大型語言模型已經在參數規模上實現爆炸性增長。 ############這意味著它們遠大於單一晶片所能儲存的容量,對算力需求是一個巨大的「黑洞」。 ######
因此這些大模型必須分佈在數千個晶片上,然後這些晶片必須協同工作數週,甚至更長時間來訓練模型。
目前,Google迄今公開揭露的最大的語言模型PaLM,有5400億參數,便是在50天內將其分割到兩台4000晶片的超級電腦上進行訓練的。
Google表示,自家的超級電腦能夠輕鬆地重新配置晶片之間的連接,能夠避免問題,並進行效能調優。
Google研究員Norm Jouppi和Google傑出工程師David Patterson在關於該系統的部落格文章中寫道,
「電路交換使得繞過度失效組件變得容易。這種靈活性甚至允許我們改變超算互連的拓撲結構,以加速機器學習模型的性能。」
##儘管谷歌現在才發布有關其超級電腦的詳細信息,但自2020年以來,該超級電腦已在位於俄克拉荷馬州梅斯縣的數據中心內上線。
Google表示,Midjourney使用該系統訓練了其模型,最新版的V5讓所有人見識到圖像生成的驚艷。
最近,劈柴在接受《紐約時報》採訪稱,Bard將從LaMDA轉到PaLM上。
現在有了TPU v4超算的加持,Bard只會變得更強。
以上是Google超強AI超算碾壓英偉達A100! TPU v4效能提升10倍,細節首次公開的詳細內容。更多資訊請關注PHP中文網其他相關文章!