首頁 >科技週邊 >人工智慧 >螞蟻開源分散式訓練擴展庫ATorch實現大模型訓練算力有效利用率達60%

螞蟻開源分散式訓練擴展庫ATorch實現大模型訓練算力有效利用率達60%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2024-01-14 19:57:121486瀏覽

螞蟻集團最近宣布推出了名為ATorch的大模型分散式訓練加速擴充庫，這是一個開源工具。 ATorch的目標是透過自動資源動態優化和分散式訓練穩定性提升，幫助提高深度學習的智慧性。根據了解，在大模型訓練中，ATorch可以將千億款千卡等級訓練的算力利用率提高到60%，相當於為跑車添上了強勁的引擎。這對於深度學習的研究人員和開發者來說，將是一個重要的工具，可以幫助他們更有效率地訓練和優化大型模型。

螞蟻開源分散式訓練擴展庫ATorch實現大模型訓練算力有效利用率達60% 圖：ATorch致力於讓大模型訓練更有效率、可重複

隨著生成式大模型的爆發，模型訓練的資料集和參數規模呈現指數級增長。為了滿足這種龐然大物的訓練需求，並且能夠快速迭代模型，分散式訓練已成為解決方案之一。在這個領域中，PyTorch和TensorFlow等深度學習框架被廣泛採用用於模型的建構和訓練。為了更好地適應大模型訓練，業界已經進行了多項工作，其中之一就是螞蟻開源的ATorch工具包。 ATorch為PyTorch等深度學習框架提供了更適用於大模型訓練的功能和工具，幫助開發者和研究人員更有效率地完成模型訓練任務。這項工具包的開源將進一步推動大模型訓練的發展，為研究和應用領域帶來更多機會和挑戰。

據了解，ATorch採用了分層的架構設計，功能清晰、設計全面，可為開發者提供極致精簡的開發體驗，以及領先的穩定性保障。主要包括統一分散式最佳化策略配置介面、自動分散式策略搜尋、自動彈性容錯、高效率動態記憶體管理庫、自研優化器加速收斂等核心功能。作為PyTorch框架的高效能擴充加速函式庫，ATorch可實現最少化使用者程式碼侵入，為千億參數大模型千卡級訓練提供易用的高效能方案。

最近，在以開源模型為物件的大模型訓練優化實踐中，ATorch獲得了出色的成績。舉例來說，它成功將清華大學開源的GLM-65b大模型的千卡預訓練算力利用率從28.8%提升至62%，將Meta開發的LLama2-70b大模型的預訓練算力利用率從42%提升至60%，也將英國AI公司Stability AI開發的多模態大模型Stable Diffusion的訓練算力利用率從21.8%提升至58.7%。除此之外，ATorch在千卡訓練穩定性方面表現出色，日均純訓練時長佔比提升至95%，ckpt save耗時控制在1分鐘以內，訓練重啟耗時最快只需5分鐘，達到了行業領先水準。

目前，ATorch已整合到螞蟻集團的開源產品DLRover中，該產品是基於雲端原生技術建構的智慧分散式深度學習系統。 ATorch的加入使得大模型開發者能夠更專注於模型架構的設計，無需繁瑣地處理工程細節，從而提高訓練效率和智慧化程度。

以上是螞蟻開源分散式訓練擴展庫ATorch實現大模型訓練算力有效利用率達60%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构分布式接口对象 tensorflow pytorch stable diffusion

陳述：

本文轉載於：jiqizhixin.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：訊飛智文：提升企業數位轉型的高效AI工作伴侶下一篇：訊飛智文：提升企業數位轉型的高效AI工作伴侶

看更多