螞蟻集團NextEvo全面開源AI Infra技術，可實現大模型訓練'自動駕駛”

螞蟻集團NextEvo全面開源AI Infra技術，可實現大模型訓練'自動駕駛”

Feb 02, 2024 am 08:39 AM

大模型產業螞蟻集團

近期，蚂蚁集团旗下AI创新研发部门NextEvo宣布全面开源AI Infra技术，该技术能够极大地提高大型模型训练的效率。根据数据显示，该技术能够将训练时间的有效占比提高至超过95%，实现了训练过程的自动化。这一突破性的进展显著推动了AI研发的效率提升。

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

图：蚂蚁集团的自动化分布式深度学习系统DLRover现已全面开源

DLRover是一个专为大规模分布式训练而设计的技术框架。在当前许多企业中，训练作业常常在复杂多变的混合部署集群中运行。无论环境多么复杂，DLRover都能轻松应对，就像在崎岖的地形上行驶一样。

2023年大模型技术的快速发展催生了工程实践的爆炸式增长。如何高效管理数据、优化训练和推理效率，充分利用现有算力，成为了关键问题。

完成一个千亿参数级别的大模型，例如GPT-3，用一张卡训练一次要耗时32年。因此，在训练过程中，充分利用算力是非常重要的。为了实现这一目标，有两种方法可以采用。首先，可以进一步提高已购买GPU的性能，以充分发挥其潜力。其次，可以利用以前无法利用的算力资源，例如CPU和内存。为了实现这一点，可以通过异构计算平台来解决这个问题。

DLRover最新集成了Flash Checkpoint（FCP）方案，用于模型训练时的Checkpoint打点。传统的Checkpoint打点方式存在耗时长、高频打点降低训练可用时间、低频打点恢复时丢失过多等问题。通过应用新方案FCP，在千亿参数模型训练后，Checkpoint导致的训练浪费时间降低了约5倍，并将持久化时间降低了约70倍。这一改进将有效训练时间从90%提升至95%。这意味着DLRover的模型训练效率得到了显著的提升。

我们还集成了三项新的优化器技术进去。优化器是机器学习的核心组件，用于更新神经网络参数以最小化损失函数。其中，蚂蚁的AGD（Auto-switchable optimizer with Gradient Difference of adjacent steps）优化器在大模型预训练任务中比传统的AdamW技术加速1.5倍。AGD已在蚂蚁内部多个场景使用并取得显著效果，相关论文已被NeurIPS '23收录。

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

图：在大模型预训练任务中，AGD相比AdamW可以加速1.5倍

作为自动化分布式深度学习系统，DLRover的“自动驾驶”功能模块还包括：Atorch，一种PyTorch分布式训练扩展库，在千亿参数模型千卡级别规模下，训练的算力利用率可达60%，帮助开发者进一步压榨硬件算力。

DLRover以 “ML for System” 的理念来提升分布式训练的智能度，旨在通过一个系统，让开发者完全摆脱资源配置的束缚，专注于模型训练本身。在没有任何资源配置输入的情况下，DLRover 仍然可以为每个训练作业提供最佳资源配置。

据了解，蚂蚁集团在人工智能领域持续进行技术投入，最近，蚂蚁集团在内部成立了AI创新研发部门NextEvo，承担了蚂蚁AI的所有核心技术研发，包含百灵大模型的所有研发工作，涉及AI算法、AI工程、NLP、AIGC等核心技术，并在布局多模态大模型、数字人等领域的技术研发和产品创新。

同时，蚂蚁集团还加速开源节奏，填补了国内相关技术空白，推动人工智能行业快速发展。

DLRover开源地址：https://www.php.cn/link/cf372cbe6eae54c6a6dfb3ebbcdc3404

以上是螞蟻集團NextEvo全面開源AI Infra技術，可實現大模型訓練'自動駕駛”的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

一個提示可以繞過每個主要LLM的保障措施

一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型（LLM）的關鍵脆弱性。他們的發現揭示了一種普遍的旁路技術，稱為“政策木偶”，能夠規避幾乎所有主要LLMS

5個錯誤，大多數企業今年將犯有可持續性

5個錯誤，大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。這種轉變會影響產品開發，製造過程，客戶關係，合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級，從而揭示了中國對外國半導體技術的依賴。 2024年，中國進口了價值3850億美元的半導體

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離，引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器，擁有65％的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦

AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長，但仍在放緩。這個成熟階段提出了挑戰，包括生態系統破碎，成本上升，測量問題和整合複雜性。但是，人工智能

'AI是我們，比我們更多'

'AI是我們，比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中，一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心，這是沉浸式展覽中的六個裝置之一，＆qu＆qu

Google Cloud在下一個2025年對基礎架構變得更加認真

Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025：關注基礎架構，連通性和AI Google Cloud的下一個2025會議展示了許多進步，太多了，無法在此處詳細介紹。有關特定公告的深入分析，請參閱我的文章

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中：一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。讓我們潛入頭條新聞。 AI生成的內容的增長影響：技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

刺客信條陰影：貝殼謎語解決方案

4 週前ByDDD

Windows 11 KB5054979中的新功能以及如何解決更新問題

3 週前ByDDD

在哪裡可以找到原子中的起重機控制鑰匙卡

4 週前ByDDD

<🎜>：死鐵路 - 如何完成所有挑戰

1 個月前ByDDD

如何修復KB5055523無法在Windows 11中安裝？

2 週前ByDDD

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦：為Win版本，支援程式碼提示！

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

熱門話題

gmail信箱登陸入口在哪裡

7720

15

1642

14

1396

52

1289

25

1233

29