搜索
首页科技周边人工智能来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

中国电子学会 2023 科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。

在大模型飞速发展的当下,科学技术奖授予机器学习平台类研究和应用项目,对于模型训练平台的价值和重要性给予了充分的肯定。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

科学技术奖认可了机器学习平台类项目的研究和应用,特别在大型模型快速发展的背景下,对模型训练平台的价值和重要性给予了充分的认可。

随着深度学习的兴起,各大公司开始认识到机器学习平台在发展人工智能技术中的重要性。谷歌、微软、英伟达等公司都推出了自己的机器学习平台,以加速人工智能模型的训练过程。这些平台为开发者提供了便捷的支持,使他们能够更快地构建和优化复杂的人工智能系统。这种趋势促使人们更加关注机器学习技术的发展,并为未来的人工智能应用打下了坚实的基础。

从2023年开始,大型模型的兴起进一步推动了模型参数量的提升。各大公司纷纷推出了参数规模达到千亿甚至万亿级别的模型,这些模型普遍采用深度神经网络结构。然而,这种发展也带来了两个核心痛点:模型分布式训练的困难以及应用复杂性所带来的模型设计挑战。

为什么是 Angel 机器学习平台?

详解四大核心技术突破

由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

                              腾讯 Angel 平台架构图

腾讯的 Angel 机器学习平台采用了分布式参数服务器架构,这种架构的特点是将存储模型参数和执行模型计算这两个任务分别在不同的服务器上运行。通过增加更多的服务器,可以支持更大规模、计算需求更高的模型。这种架构使得模型训练过程更为高效,能够处理大规模数据集和复杂模型计算。分布式参数服务器的设计使得系统具有良好的扩展性和灵活性,能够满足不同规模和需求的机器学习任务。这种架构的优势在于可以有效地利用集群资源,提高计算效率,并为用户提供更快速、更

面对海量数据和超大规模模型训练需求 ,腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

为了提高训练效率,TB 级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通信量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通信耗时减少 80%,分布式训练性能达业界主流方案的 2.5 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

现有的算力条件下,尽管模型达到 TB 级,而主流 GPU 的显存仍只有 80G,参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题, 腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加 1 倍,训练性能是业界主流方案 2 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升 40% 以上。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

另外,针对面向推荐系统的图模型训练, 腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了 TB 图模型应用中 “图数据挖掘难” 的问题,实现模型训练性能提升 28 倍,与业界比具有最优扩展性。

腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模

作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。

2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。

腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。

以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。

以上是来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

4个新的双子座功能您可以错过4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

Camunda为经纪人AI编排编写了新的分数Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

策划的企业AI体验是否有价值?策划的企业AI体验是否有价值?Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

如何为抹布找到最佳的多语言嵌入模型?如何为抹布找到最佳的多语言嵌入模型?Apr 23, 2025 am 11:44 AM

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

麝香:奥斯汀的机器人需要每10,000英里进行干预麝香:奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

AI震惊的枢轴:从工作工具到数字治疗师和生活教练AI震惊的枢轴:从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将

公司竞争AI代理的采用公司竞争AI代理的采用Apr 23, 2025 am 11:40 AM

AI代理商的兴起正在改变业务格局。 与云革命相比,预计AI代理的影响呈指数增长,有望彻底改变知识工作。 模拟人类决策的能力

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)