首頁  >  文章  >  科技週邊  >  基於GPT-3的大語言模型訓練任務刷新記錄:NVIDIA H100加速卡僅用11分鐘

基於GPT-3的大語言模型訓練任務刷新記錄:NVIDIA H100加速卡僅用11分鐘

PHPz
PHPz轉載
2023-06-28 21:02:021209瀏覽

6月28日消息,AI技術的蓬勃發展使得NVIDIA的顯示卡成為市場上備受矚目的熱門產品。尤其是高階的H100加速卡,其售價超過25萬元,然而市場供不應求。這張加速卡的表現也非常驚人,最新的AI測試結果顯示,基於GPT-3的大語言模型訓練任務刷新了記錄,完成時間僅為11分鐘。

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

據小編了解,機器學習及人工智慧領域的開放產業聯盟MLCommons發布了最新的MLPerf基準評測。其中包括8個負載測試,其中就包含基於GPT-3開源模型的LLM大語言模型測試,這對於評估平台的AI效能提出了很高的要求。

參與測試的NVIDIA平台由896個Intel至強8462Y 處理器和3584個H100加速卡組成,是所有參與平台中唯一能夠完成所有測試的。並且,NVIDIA平台刷新了記錄。在關鍵的基於GPT-3的大語言模型訓練任務中,H100平台僅用了10.94分鐘,與之相比,採用96個至強8380處理器和96個Habana Gaudi2 AI晶片構建的Intel平台完成同樣測試所需的時間為311.94分鐘。

H100平台的效能幾乎是Intel平台的30倍,當然,兩套平台的規模有很大差異。但即便只使用768個H100加速卡進行訓練,所需時間仍只有45.6分鐘,遠超過採用Intel平台的AI晶片。

H100加速卡採用GH100 GPU核心,客製化版台積電4nm製程製造,擁有800億個電晶體。它整合了18432個CUDA核心、576個張量核心和60MB的二級緩存,支援6144-bit HBM高頻寬記憶體以及PCIe 5.0介面。

基于GPT-3的大语言模型训练任务刷新记录:NVIDIA H100加速卡仅用11分钟

H100計算卡提供SXM和PCIe 5.0兩種樣式。 SXM版本擁有15872個CUDA核心和528個Tensor核心,而PCIe 5.0版本則擁有14952個CUDA核心和456個Tensor核心。該卡的功耗最高可達700W。

就效能而言,H100加速卡在FP64/FP32運算方面能夠達到每秒60萬億次的運算能力,而在FP16運算方面達到每秒2000萬億次的運算能力。此外,它還支援TF32計算,每秒可達1000兆次,是A100的三倍。而在FP8運算方面,H100加速卡的效能可達每秒4000兆次,是A100的六倍。

以上是基於GPT-3的大語言模型訓練任務刷新記錄:NVIDIA H100加速卡僅用11分鐘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:itbear.com。如有侵權,請聯絡admin@php.cn刪除