DeepSeek在这里享有#opensourceweek的第2天,今天他们介绍了Deepep(用于Moe模型培训和推理的开源EP通信库。到目前为止,DeepSeek以及他们对OpenAI,Meta等十亿美元模型的回答给我留下了深刻的印象。现在,他们正在探索AGI的构建基块。通过5个存储库(2个已经发布),他们展示了对AI中透明度,社区合作和进步的承诺。
在DeepSeek的第1天团队发行了FlashMLA,您可以在此处阅读有关它的信息 - DeepSeek #opensourceweek第1天:发布FlashMLA。
今天,我们将详细谈论Deepep。
>有效且优化的全能通信 NVLink和rdma
用于培训和推理预填充- 的高通量内核
用于推理解码的低延迟核
- >本机FP8调度支持
- >灵活的GPU资源控制用于计算 - 通信重叠
- 目录
- deepep:优化的MOE通信库和专家并行性
- 专家(MOE)的混合物(MOE)是什么?型号
- >> >如何开放deepep是一个改变游戏规则的人及其提供的内容?推理解码
- 本机FP8调度支持
> -
- 灵活的GPU资源控制用于计算 - communication-communication重叠
- > Deepep:MOE的优化通信库和专家并行 Deepep是一个专门用于专家(MOE)和专家并行性(EP)的高性能通信库。它具有高效的全能GPU内核(通常称为Moe调度和组合),并延迟了出色的吞吐量和最小的延迟。此外,DEEPEP支持低精度计算,包括FP8,可确保深度学习工作负载的灵活性。
-
为了补充DeepSeek-V3纸中引入的群体有限的门控算法,DeePep提供了针对不对称构域带宽转发的专门内核。这些内核优化了不同硬件域之间的数据传输,例如NVLINK和RDMA,最大程度地提高了训练和推理预填充任务的吞吐量。此外,该库还包括用于管理流多处理器(SM)用法的内置控件。对于需要超低潜伏期的推理方案,尤其是在解码期间,DEEPEP集成了一组专用的仅RDMA核心,以大大减少沟通延迟。此外,它采用基于创新的钩子的方法与计算重叠的通信(无需消耗任何SM资源),以确保最佳效率。
> DeepSeek开放源技术的决定是使每个人都可以访问的尖端AI。通过分享其创新,它可以使开发商,研究人员和业务能够在医疗保健,气候科学或防御方面(无论是在医疗保健,气候科学中还是防御),以突破界限并建立更高级的解决方案。开放访问会促进协作加快突破性,并确保AI开发不限于少数。
> > DEEPEP是“用于MOE模型培训和推理的第一个开源EP通信库”。和最好的部分? DeepSeek的工具可在GitHub上找到,使任何人都可以更轻松地探索,贡献和完善技术。 现在,让我们了解什么是专家的混合物(MOE)>
专家(MOE)的混合物是什么?混合的地方,它允许模型在优化计算效率的同时显着扩展。 MOE是一种神经网络体系结构,旨在通过在计算过程中仅选择性激活参数的一部分来优化模型训练和推断。这样可以使用更大的模型,而无需成比例的计算成本增加。
>MOE主要由两个关键组件 组成
- 稀疏的MOE层 - 这些取代了传统的密集进料网络(FFN)层。 MOE层不是单个FFN,而是由多个专家组成(例如,8个单独的网络)。每个专家都可以充当独立的神经网络,通常是FFN,但在某些情况下,这些专家可以是更复杂的结构,甚至是分层的MOE。 >路由器或门网络
- - 此机制确定将哪些令牌分配给了哪些专家。例如,在给定的序列中,一个令牌可能是针对专家2的,而另一个代币由专家1处理。MoE中的关键设计选择是代币如何在专家之间分发。路由机制受可学习的参数约束,这些参数与其他模型旁边进行了训练。 MOE如何在变压器模型中工作? 在标准变压器模型中,每个令牌都是通过密集的FFN层处理的。但是,在MOE模型中,这些密集的FFN层被MOE层取代,由多个专家和门控机制组成。在推论和培训期间,仅将这些专家的一部分激活,每个令牌都会降低整体计算,同时保持模型容量。 MOE模型的好处
与密集模型相比,
> >有效预处理- 具有比较较低的计算要求的大型模型,使研究人员能够更快地训练模型而无需过多的硬件成本。
更快的推理
- 由于在任何给定时间仅使用模型参数的一部分,因此与同等总尺寸的密集模型相比,推理的效率要高得多。- >
-
可伸缩性 - MOE允许研究人员在与密集的模型相同的计算预算范围内增加模型尺寸和数据集大小。
- >专家(MOE)的混合物是有效地扩展变压器模型的强大方法,使得可以以降低的计算成本来训练大型模型。通过用稀疏的MOE层代替传统密集的FFN层并利用路由机制,这些模型可实现高可扩展性并提高了推理速度。但是,权衡包括增加的记忆需求,训练复杂性以及设计有效的路由策略的挑战。随着研究的继续,基于MOE的架构可能在下一代AI模型中发挥重要作用。
>开启Deepep是一个改变游戏规则的及其提供的产品?
>1。有效,优化的全能通信
为了有效地训练和部署MOE模型,节点之间的无缝通信都是必不可少的,这都是一台计算机(Intranode)和跨多个计算机(Internode)(internode)的必不可少的。 DeePep通过高度优化的全部沟通来应对这一挑战,确保快速有效的数据传输,最大程度地减少瓶颈和最大化性能。2。 Intranode和Interdode用NVLINK和RDMA
> Deepep超出了基本通信,可以通过NVLink和RDMA(远程直接内存访问)等高级技术实现无缝的内模和Interdode连接。 NVLINK是NVIDIA的高速互连,可以加速节点内的数据交换,而RDMA最大程度地减少了跨节点传输的延迟,从而确保了大型AI系统的最佳性能。这些创新集体重新定义了效率,使DeePep成为下一代AI工作负载的强大企业。的高通量内核 Deepep
旨在有效地处理大规模数据。它的高速内核可以通过优化数据如何通过系统进行快速培训。在推理预填充过程中,这些内核会迅速处理大批量,从而确保没有瓶颈的表现顺利有效。>
4。推理解码的低延迟核
在实时预测方面,速度就是一切。 DeePep的低延迟内核在推理解码过程中最大程度地减少了延迟,从而以最小的滞后响应提供了即时响应。这使其非常适合需要快速决策和无缝用户体验的应用程序。5。本机FP8调度支持
Deepep以其内置的FP8(浮点8)支持而脱颖而出,这是一种提高速度并降低内存使用的尖端格式 - 完美地缩放AI模型。通过集成FP8,DeepSeek确保库保持在不断发展的AI硬件和算法之前。这意味着更快的培训,较低的能源成本以及更有效的可持续人工智能开发途径。6。用于计算通信重叠的柔性GPU资源控制
DEEPEP通过启用同时计算和数据传输,最大程度地减少停机时间并最大化性能来优化GPU的使用。它是大型AI项目的理想选择,可帮助研究人员和企业节省时间和成本,同时有效地扩展。>
>尝试自己- 在github上查找Deepep的源代码,文档和示例以快速入门。
>探索文档 - 学习如何利用DEEPEP的关键功能,例如NVLink,RDMA和FP8,并逐步指导。
>最后,您可以利用任何工具来测试和集成DEEPEP。结论
DeepSeek在开源周的第2天发行了DeeDep。这是一个改变专家(MOE)模型培训和推理的游戏规则。 DeepSeek提供了高性能的开源EP通信库。它提高效率,削减延迟并改善大规模AI工作负载的资源管理。 DEEPEP支持NVLINK,RDMA,FP8和无缝计算通信重叠。这使开发人员和研究人员有能力推进AI创新。 DeepSeek的开源承诺加快了AGI的进步。它使尖端的AI工具在全球范围内更容易访问。
以上是Deepep在DeepSeek开源周的第2天发布的详细内容。更多信息请关注PHP中文网其他相关文章!

Google正在领导这一转变。它的“ AI概述”功能已经为10亿用户提供服务,在任何人单击链接之前提供完整的答案。[^2] 其他球员也正在迅速获得地面。 Chatgpt,Microsoft Copilot和PE

2022年,他创立了社会工程防御初创公司Doppel,以此做到这一点。随着网络犯罪分子越来越高级的AI模型来涡轮增压,Doppel的AI系统帮助企业对其进行了大规模的对抗 - 更快,更快,

瞧,通过与合适的世界模型进行交互,可以实质上提高生成的AI和LLM。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括

劳动节2050年。全国范围内的公园充满了享受传统烧烤的家庭,而怀旧游行则穿过城市街道。然而,庆祝活动现在具有像博物馆般的品质 - 历史重演而不是纪念C

为了帮助解决这一紧急且令人不安的趋势,在2025年2月的TEM期刊上进行了同行评审的文章,提供了有关该技术深击目前面对的最清晰,数据驱动的评估之一。 研究员

从大大减少制定新药所需的时间到创造更绿色的能源,企业将有巨大的机会打破新的地面。 不过,有一个很大的问题:严重缺乏技能的人

几年前,科学家发现某些类型的细菌似乎通过发电而不是吸收氧气而呼吸,但是它们是如何做到的,这是一个谜。一项发表在“杂志”杂志上的新研究确定了这种情况的发生方式:Microb

在本周的RSAC 2025会议上,Snyk举办了一个及时的小组,标题为“前100天:AI,Policy&Cybersecurity Collide如何相撞”,其中包括全明星阵容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前记者和帕特纳(Partne)


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3汉化版
中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。