雖然Google早在2020年,就在自家的資料中心上部署了當時最強的AI晶片—TPU v4。
但直到今年的4月4日,Google才首次公佈了這台AI超算的技術細節。
#論文網址:https://arxiv.org/abs/2304.01433
比起TPU v3,TPU v4的效能高出2.1倍,而整合4096個晶片之後,超算的效能更是提升了10倍。
另外,Google也聲稱,自家晶片要比英偉達A100更快、更節能。
與A100對打,速度快1.7倍
論文中,Google表示,對於規模相當的系統,TPU v4可以提供比英偉達A100強1.7倍的性能,同時在能源效率上也能提升1.9倍。
另外,Google超算速度還要比Graphcore IPU Bow快約4.3倍至4.5倍。
Google展示了TPU v4的封裝,以及4個安裝在電路板上的封裝。
與TPU v3一樣,每個TPU v4包含兩個TensorCore(TC)。每個TC包含四個128x128矩陣乘法單元(MXU),一個具有128個通道(每個通道16個ALU),以及16 MiB向量記憶體(VMEM)的向量處理單元(VPU)。
兩個TC共用一個128 MiB的公共記憶體(CMEM)。
值得注意的是,A100晶片與Google第四代TPU同時上市,那麼其具體效能比較如何?
Google分別展示了在5個MLPerf基準測試中每個DSA的最快效能。其中包括BERT、ResNET、DLRM、RetinaNet、MaskRCNN。
其中,Graphcore IPU在BERT和ResNET提交了結果。
如下顯示了兩個系統在ResNet和BERT的結果,點之間的虛線是基於晶片數的插值。
TPU v4和A100的MLPerf結果都擴展到比IPU更大的系統(4096個晶片對比256個晶片)。
對於相似規模的系統,TPU v4在BERT上比A100快1.15倍,比IPU快約4.3倍。對於ResNet,TPU v4分別快速1.67倍和約4.5倍。
對於在MLPerf基準測試上的功耗使用情況,A100平均上使用了1.3倍至1.9倍的功率。
峰值每秒浮點運算次數是否能預測實際效能?許多機器學習領域的人認為峰值每秒浮點運算次數是一個很好的效能代理指標,但實際上並非如此。
例如,儘管在峰值每秒浮點運算次數上僅具有1.10倍的優勢,TPU v4在兩個MLPerf基準測試上比IPU Bow在相同規模的系統上快4.3倍至4.5倍。
另一個例子是,A100的峰值每秒浮點運算次數是TPU v4的1.13倍,但對於相同數量的晶片,TPU v4卻快1.15倍至1.67倍。
如下圖所示使用Roofline模型展示了峰值FLOPS/秒與記憶體頻寬之間的關係。
那麼,問題來了,為什麼谷歌不跟英偉達最新的H100比較呢?
Google表示,由於H100是在Google晶片推出後使用更新技術製造的,所以沒有將其第四代產品與英偉達目前的旗艦H100晶片進行比較。
不過Google暗示,它正在研發一款與Nvidia H100競爭的新TPU,但沒有提供詳細資訊。谷歌研究員Jouppi接受路透社採訪時表示,Google擁有「未來晶片的生產線」。
TPU vs GPU
在ChatGPT和Bard「決一死戰」的同時,兩個龐然大物也在幕後努力運行,以保持它們的運作-英偉達CUDA支持的GPU(圖形處理單元)和Google定制的TPU(張量處理單元)。
換句話說,這已經不再是關於ChatGPT與Bard的對抗,而是TPU與GPU之間的對決,以及它們如何有效地進行矩陣乘法。
由於硬體架構方面的出色設計,英偉達的GPU非常適合矩陣乘法任務-能有效地在多個CUDA核心之間實作並行處理。
因此從2012年開始,在GPU上訓練模型便成為了深度學習領域的共識,至今都未曾改變。
而隨著NVIDIA DGX的推出,英偉達能夠為幾乎所有的AI任務提供一站式硬體和軟體解決方案,這是競爭對手由於缺乏知識產權而無法提供的。
相比之下,Google則在2016年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優化的客製化ASIC(專用積體電路),也針對自家的TensorFlow框架進行了最佳化。而這也讓TPU在矩陣乘法之外的其他AI運算任務中具有優勢,甚至還可以加速微調和推理任務。
此外,GoogleDeepMind的研究人員也找到了一種能夠創造出更好矩陣乘法演算法的方法-AlphaTensor。
然而,即便Google透過自研的技術和新興的AI運算優化方法取得了良好的成果,但微軟與英偉達長久以來的深度合作,則透過利用各自在產業上的積累,同時擴大了雙方的競爭優勢。
第四代TPU
#時間回到21年的GoogleI/O大會上,劈柴首次公佈了Google最新一代AI晶片TPU v4。
「這是我們在Google上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。」
########################### ##########這次的改進已經成為建立AI超算的公司之間競爭的關鍵點,因為像Google的Bard、或OpenAI的ChatGPT類似的大型語言模型已經在參數規模上實現爆炸性增長。 ############這意味著它們遠大於單一晶片所能儲存的容量,對算力需求是一個巨大的「黑洞」。 ######
因此這些大模型必須分佈在數千個晶片上,然後這些晶片必須協同工作數週,甚至更長時間來訓練模型。
目前,Google迄今公開揭露的最大的語言模型PaLM,有5400億參數,便是在50天內將其分割到兩台4000晶片的超級電腦上進行訓練的。
Google表示,自家的超級電腦能夠輕鬆地重新配置晶片之間的連接,能夠避免問題,並進行效能調優。
Google研究員Norm Jouppi和Google傑出工程師David Patterson在關於該系統的部落格文章中寫道,
「電路交換使得繞過度失效組件變得容易。這種靈活性甚至允許我們改變超算互連的拓撲結構,以加速機器學習模型的性能。」
##儘管谷歌現在才發布有關其超級電腦的詳細信息,但自2020年以來,該超級電腦已在位於俄克拉荷馬州梅斯縣的數據中心內上線。
Google表示,Midjourney使用該系統訓練了其模型,最新版的V5讓所有人見識到圖像生成的驚艷。
最近,劈柴在接受《紐約時報》採訪稱,Bard將從LaMDA轉到PaLM上。
現在有了TPU v4超算的加持,Bard只會變得更強。
以上是Google超強AI超算碾壓英偉達A100! TPU v4效能提升10倍,細節首次公開的詳細內容。更多資訊請關注PHP中文網其他相關文章!

谷歌三件套指的是:1、google play商店,即下载各种应用程序的平台,类似于移动助手,安卓用户可以在商店下载免费或付费的游戏和软件;2、Google Play服务,用于更新Google本家的应用和Google Play提供的其他第三方应用;3、谷歌服务框架(GMS),是系统软件里面可以删除的一个APK程序,通过谷歌平台上架的应用和游戏都需要框架的支持。

中国不卖google手机的原因:谷歌已经全面退出中国市场了,所以不能在中国销售,在国内是没有合法途径销售。在中国消费市场中,消费者大都倾向于物美价廉以及功能实用的产品,所以竞争实力本就因政治因素大打折扣的谷歌手机主体市场一直不在中国大陆。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

2015 年,谷歌大脑开放了一个名为「TensorFlow」的研究项目,这款产品迅速流行起来,成为人工智能业界的主流深度学习框架,塑造了现代机器学习的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、研究人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:谷歌的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉

前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。随后,谷歌火速否认。而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗?知友回复莱斯大学博士、知友「一堆废纸」表示,其实谷歌和OpenAI的差距,是数据的差距。「OpenAI对LLM有强大的执念,这是Google这类公司完全比不上的。当然人的差距只是一个方面,数据的差距以及对待数据的态度才

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

让一位乒乓球爱好者和机器人对打,按照机器人的发展趋势来看,谁输谁赢还真说不准。机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中,机器人的表现又如何呢?就拿乒乓球来说,这需要双方高度配合,并且球的运动非常快速,这对算法提出了重大挑战。在乒乓球比赛中,首要的就是速度和精度,这对学习算法提出了很高的要求。同时,这项运动具有高度结构化(具有固定的、可预测的环境)和多智能体协作(机器人可以与人类或其他机器人一起对打)两大特点,使其成为研究人

ChatGPT在手,有问必答。你可知,与它每次对话的计算成本简直让人泪目。此前,分析师称ChatGPT回复一次,需要2美分。要知道,人工智能聊天机器人所需的算力背后烧的可是GPU。这恰恰让像英伟达这样的芯片公司豪赚了一把。2月23日,英伟达股价飙升,使其市值增加了700多亿美元,总市值超5800亿美元,大约是英特尔的5倍。在英伟达之外,AMD可以称得上是图形处理器行业的第二大厂商,市场份额约为20%。而英特尔持有不到1%的市场份额。ChatGPT在跑,英伟达在赚随着ChatGPT解锁潜在的应用案


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中