搜尋
首頁科技週邊人工智慧微軟發布新的混合精準度訓練框架 FP8:速度超過 BF16 64%,記憶體佔用減少 42%

微软发布新的混合精度训练框架 FP8:速度超过 BF16 64%,内存占用减少 42%

11 月10 日訊息,大語言模型(LLM)快速崛起,在語言生成和理解方面表現出光明的前景,影響超越了語言領域,延伸到邏輯、數學、物理等領域。

微软发布新的混合精度训练框架 FP8:速度超过 BF16 64%,内存占用减少 42%

不過想要解鎖這些“非凡能量”,需要付出高額的代價,例如訓練540B 模型,需要Project PaLM 的6144 個TPUv4 晶片;而訓練175B 的GPT-3,需要數千Petaflop/s-day。

一個很好的解決方案是進行低精度訓練,這可以提高處理速度,降低記憶體使用和通訊成本。目前主流的訓練系統包括Megatron-LM、MetaSeq和Colossal-AI,預設使用FP16/BF16混合精度或FP32全精度來訓練大型語言模型

雖然這些精度等級對於大語言模型來說是必必不可少的,但它們的計算成本很高。

如果採用 FP8 低精度,可以將速度提高 2 倍、記憶體成本降低 50% 至 75%,並且可節省通訊成本。

目前只有 Nvidia Transformer Engine 相容 FP8 框架,主要利用這種精確度進行 GEMM(通用矩陣乘法)計算,同時以 FP16 或 FP32 高精度維持主權重和梯度。

為了應對這項挑戰,來自 Microsoft Azure 和 Microsoft Research 的一組研究人員推出了一個高效的 FP8 混合精度框架,專為大型語言模型訓練量身定制。

微软发布新的混合精度训练框架 FP8:速度超过 BF16 64%,内存占用减少 42%

微軟引進了三個最佳化階段,利用 FP8 進行分散式和混合精準度訓練。隨著這些層級的進展,FP8 整合程度的提高變得明顯,這表明對 LLM 訓練過程的影響更大。

此外為了克服資料溢出或下溢等問題,微軟研究人員提出自動採樣和精確解耦兩種關鍵方法,前者涉及對精度不敏感的組件降低精度,動態調整Tensor 採樣因子,以確保梯度值保持在FP8 表示範圍內。這可以防止全減少通訊期間的下溢和溢流事件,確保訓練過程更加順暢。

微軟經過測試,與廣泛採用的 BF16 混合精度方法相比,記憶體佔用減少 27% 至 42%,權重梯度通訊開銷顯著降低 63% 至 65%。運行速度比廣泛採用的 BF16 框架(例如 Megatron-LM)快了 64%,比 Nvidia Transformer Engine 的速度快了 17%。

微软发布新的混合精度训练框架 FP8:速度超过 BF16 64%,内存占用减少 42%

在訓練GPT-175B 模型時,混合FP8 精度框架在H100 GPU 平台上節省21% 的內存,而且相比較TE(Transformer Engine),訓練時間減少17%。

本站在此附上GitHub 地址和論文地址:https://www.php.cn/link/7b3564b05f78b6739d06a2ea3187f5ca

##################################################### ##

以上是微軟發布新的混合精準度訓練框架 FP8:速度超過 BF16 64%,記憶體佔用減少 42%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。