螞蟻集團最近宣布推出了名為ATorch的大模型分散式訓練加速擴充庫,這是一個開源工具。 ATorch的目標是透過自動資源動態優化和分散式訓練穩定性提升,幫助提高深度學習的智慧性。根據了解,在大模型訓練中,ATorch可以將千億款千卡等級訓練的算力利用率提高到60%,相當於為跑車添上了強勁的引擎。這對於深度學習的研究人員和開發者來說,將是一個重要的工具,可以幫助他們更有效率地訓練和優化大型模型。
隨著生成式大模型的爆發,模型訓練的資料集和參數規模呈現指數級增長。為了滿足這種龐然大物的訓練需求,並且能夠快速迭代模型,分散式訓練已成為解決方案之一。在這個領域中,PyTorch和TensorFlow等深度學習框架被廣泛採用用於模型的建構和訓練。為了更好地適應大模型訓練,業界已經進行了多項工作,其中之一就是螞蟻開源的ATorch工具包。 ATorch為PyTorch等深度學習框架提供了更適用於大模型訓練的功能和工具,幫助開發者和研究人員更有效率地完成模型訓練任務。這項工具包的開源將進一步推動大模型訓練的發展,為研究和應用領域帶來更多機會和挑戰。
據了解,ATorch採用了分層的架構設計,功能清晰、設計全面,可為開發者提供極致精簡的開發體驗,以及領先的穩定性保障。主要包括統一分散式最佳化策略配置介面、自動分散式策略搜尋、自動彈性容錯、高效率動態記憶體管理庫、自研優化器加速收斂等核心功能。作為PyTorch框架的高效能擴充加速函式庫,ATorch可實現最少化使用者程式碼侵入,為千億參數大模型千卡級訓練提供易用的高效能方案。
最近,在以開源模型為物件的大模型訓練優化實踐中,ATorch獲得了出色的成績。舉例來說,它成功將清華大學開源的GLM-65b大模型的千卡預訓練算力利用率從28.8%提升至62%,將Meta開發的LLama2-70b大模型的預訓練算力利用率從42%提升至60%,也將英國AI公司Stability AI開發的多模態大模型Stable Diffusion的訓練算力利用率從21.8%提升至58.7%。除此之外,ATorch在千卡訓練穩定性方面表現出色,日均純訓練時長佔比提升至95%,ckpt save耗時控制在1分鐘以內,訓練重啟耗時最快只需5分鐘,達到了行業領先水準。
目前,ATorch已整合到螞蟻集團的開源產品DLRover中,該產品是基於雲端原生技術建構的智慧分散式深度學習系統。 ATorch的加入使得大模型開發者能夠更專注於模型架構的設計,無需繁瑣地處理工程細節,從而提高訓練效率和智慧化程度。
以上是螞蟻開源分散式訓練擴展庫ATorch實現大模型訓練算力有效利用率達60%的詳細內容。更多資訊請關注PHP中文網其他相關文章!