Deepep在DeepSeek开源周的第2天发布-人工智能-PHP中文网

首页

科技周边

人工智能

Deepep在DeepSeek开源周的第2天发布

尊渡假赌尊渡假赌尊渡假赌

Mar 03, 2025 pm 07:05 PM

DeepSeek在这里享有#opensourceweek的第2天，今天他们介绍了Deepep（用于Moe模型培训和推理的开源EP通信库。到目前为止，DeepSeek以及他们对OpenAI，Meta等十亿美元模型的回答给我留下了深刻的印象。现在，他们正在探索AGI的构建基块。通过5个存储库（2个已经发布），他们展示了对AI中透明度，社区合作和进步的承诺。

在DeepSeek的第1天团队发行了FlashMLA，您可以在此处阅读有关它的信息 - DeepSeek #opensourceweek第1天：发布FlashMLA。

今天，我们将详细谈论Deepep。

有效且优化的全能通信 NVLink和rdma

用于培训和推理预填充

deepep：优化的MOE通信库和专家并行性

>为什么deepSeek开放它？

专家（MOE）的混合物（MOE）是什么？型号
- 本机FP8调度支持
- > Deepep：MOE的优化通信库和专家并行
- 为了补充DeepSeek-V3纸中引入的群体有限的门控算法，DeePep提供了针对不对称构域带宽转发的专门内核。这些内核优化了不同硬件域之间的数据传输，例如NVLINK和RDMA，最大程度地提高了训练和推理预填充任务的吞吐量。此外，该库还包括用于管理流多处理器（SM）用法的内置控件。对于需要超低潜伏期的推理方案，尤其是在解码期间，DEEPEP集成了一组专用的仅RDMA核心，以大大减少沟通延迟。此外，它采用基于创新的钩子的方法与计算重叠的通信（无需消耗任何SM资源），以确保最佳效率。
  
  为什么DeepSeek打开它？
  > DeepSeek开放源技术的决定是使每个人都可以访问的尖端AI。通过分享其创新，它可以使开发商，研究人员和业务能够在医疗保健，气候科学或防御方面（无论是在医疗保健，气候科学中还是防御），以突破界限并建立更高级的解决方案。开放访问会促进协作加快突破性，并确保AI开发不限于少数。
  >
  > DEEPEP是“用于MOE模型培训和推理的第一个开源EP通信库”。
  和最好的部分？ DeepSeek的工具可在GitHub上找到，使任何人都可以更轻松地探索，贡献和完善技术。 现在，让我们了解什么是专家的混合物（MOE）>
  专家（MOE）的混合物是什么？
  
  >模型的大小在确定其质量方面起着至关重要的作用。有了固定的计算预算，通常更有效地训练更大的步骤，而不是以较小的步骤进行较小的模型。这是专家（MOE）
  混合的地方，它允许模型在优化计算效率的同时显着扩展。 MOE是一种神经网络体系结构，旨在通过在计算过程中仅选择性激活参数的一部分来优化模型训练和推断。这样可以使用更大的模型，而无需成比例的计算成本增加。
  >MOE主要由两个关键组件
  组成
  1. 稀疏的MOE层 - 这些取代了传统的密集进料网络（FFN）层。 MOE层不是单个FFN，而是由多个专家组成（例如，8个单独的网络）。每个专家都可以充当独立的神经网络，通常是FFN，但在某些情况下，这些专家可以是更复杂的结构，甚至是分层的MOE。
  2. - 此机制确定将哪些令牌分配给了哪些专家。例如，在给定的序列中，一个令牌可能是针对专家2的，而另一个代币由专家1处理。MoE中的关键设计选择是代币如何在专家之间分发。路由机制受可学习的参数约束，这些参数与其他模型旁边进行了训练。
  >
  与密集模型相比，
  > >有效预处理
  - 具有比较较低的计算要求的大型模型，使研究人员能够更快地训练模型而无需过多的硬件成本。
  
  更快的推理
  - 由于在任何给定时间仅使用模型参数的一部分，因此与同等总尺寸的密集模型相比，推理的效率要高得多。
  - 可伸缩性 - MOE允许研究人员在与密集的模型相同的计算预算范围内增加模型尺寸和数据集大小。
  - >专家（MOE）的混合物是有效地扩展变压器模型的强大方法，使得可以以降低的计算成本来训练大型模型。通过用稀疏的MOE层代替传统密集的FFN层并利用路由机制，这些模型可实现高可扩展性并提高了推理速度。但是，权衡包括增加的记忆需求，训练复杂性以及设计有效的路由策略的挑战。随着研究的继续，基于MOE的架构可能在下一代AI模型中发挥重要作用。
    >开启Deepep是一个改变游戏规则的及其提供的产品？
    >
    1。有效，优化的全能通信
    为了有效地训练和部署MOE模型，节点之间的无缝通信都是必不可少的，这都是一台计算机（Intranode）和跨多个计算机（Internode）（internode）的必不可少的。 DeePep通过高度优化的全部沟通来应对这一挑战，确保快速有效的数据传输，最大程度地减少瓶颈和最大化性能。
    2。 Intranode和Interdode用NVLINK和RDMA
    > Deepep超出了基本通信，可以通过NVLink和RDMA（远程直接内存访问）等高级技术实现无缝的内模和Interdode连接。 NVLINK是NVIDIA的高速互连，可以加速节点内的数据交换，而RDMA最大程度地减少了跨节点传输的延迟，从而确保了大型AI系统的最佳性能。这些创新集体重新定义了效率，使DeePep成为下一代AI工作负载的强大企业。
    
    3。用于培训和推理预填充
    的高通量内核 Deepep
    旨在有效地处理大规模数据。它的高速内核可以通过优化数据如何通过系统进行快速培训。在推理预填充过程中，这些内核会迅速处理大批量，从而确保没有瓶颈的表现顺利有效。
    >
    4。推理解码
    的低延迟核
    在实时预测方面，速度就是一切。 DeePep的低延迟内核在推理解码过程中最大程度地减少了延迟，从而以最小的滞后响应提供了即时响应。这使其非常适合需要快速决策和无缝用户体验的应用程序。
    5。本机FP8调度支持
    Deepep以其内置的FP8（浮点8）支持而脱颖而出，这是一种提高速度并降低内存使用的尖端格式 - 完美地缩放AI模型。通过集成FP8，DeepSeek确保库保持在不断发展的AI硬件和算法之前。这意味着更快的培训，较低的能源成本以及更有效的可持续人工智能开发途径。
    6。用于计算通信重叠的柔性GPU资源控制
    DEEPEP通过启用同时计算和数据传输，最大程度地减少停机时间并最大化性能来优化GPU的使用。它是大型AI项目的理想选择，可帮助研究人员和企业节省时间和成本，同时有效地扩展。
    >
    >尝试自己
    
    >>>访问github存储库
    - 在github上查找Deepep的源代码，文档和示例以快速入门。
    >
    
    探索文档 - 学习如何利用DEEPEP的关键功能，例如NVLink，RDMA和FP8，并逐步指导。
    >最后，您可以利用任何工具来测试和集成DEEPEP。
    结论
    DeepSeek在开源周的第2天发行了DeeDep。这是一个改变专家（MOE）模型培训和推理的游戏规则。 DeepSeek提供了高性能的开源EP通信库。它提高效率，削减延迟并改善大规模AI工作负载的资源管理。 DEEPEP支持NVLINK，RDMA，FP8和无缝计算通信重叠。这使开发人员和研究人员有能力推进AI创新。 DeepSeek的开源承诺加快了AGI的进步。它使尖端的AI工具在全球范围内更容易访问。
    
    请继续关注toanalytics vidhya博客，用于我们对DeepSeek的第3天发行的详细分析！