首頁 >科技週邊 >人工智慧 >元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型

元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2024-04-02 13:25:081323瀏覽

元象发布XVERSE-MoE-A4.2B大模型，采用业界最前沿的混合专家模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用，推动低成本部署。

GPT3、Llama与XVERSE等主流大模型发展遵循规模理论（Scaling Law），在模型训练和推理的过程中，单次前向、反向计算时，所有参数都被激活，这被称为稠密激活 （densely activated）。当模型规模增大时，算力成本会急剧升高。

随着越来越多的研究人员认为，稀疏激活（sparsely activated）的MoE模型，在增大模型规模时，可不显著增加训练和推理的计算成本，是一种更有效的方法。由于技术较新，目前国内大部分开源模型或学术研究尚未普及。

在元素自研中，使用相同语料训练2.7百万亿token，XVERSE-MoE-A4.2B实际激活参数量4.2B，性能“跳级”超越XVERSE-13B-2，仅计算量，并减少50%训练时间。与多个开源标杆Llama相比，该模型大幅超越Llama2-13B、接近Llama1-65B（下图）。

元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型

查看多项权威评测

在开源上，元素大模型"全家桶"持续迭代，将国产开源引领至国际一流水平。应用上，元素发挥AI 3D独特技术独特优势，推出大模型3D空间、AIGC工具等一站式解决方案，赋能文娱、旅游、金融等各行各业，在智能客服、创意体验、提效工具等多场景打造领先用户体验。

MoE技术自研与创新

教育部（MoE）是当前业界最前沿的模型框架，由于技术较新，国内开源模型或学术研究尚未普及。元对象自主研发了MoE的高效训练和推理框架，并在三个方向创新：

性能上，针对MoE架构中独特专家路由和权重计算逻辑，研发一套高效融合算子，显著提升了计算效率；针对MoE模型高显存使用和大通信量挑战，设计出计算、通信和显存卸载的重叠操作，有效提高整体处理吞吐量。

架构上，与传统MoE（如Mixtral 8x7B）将每个专家大小等同于标准FFN不同，元象采用更细粒度的专家设计，每个专家大小仅为标准FFN的四分之一，提高了模型灵活性与性能；还将专家分为共享专家（Shared Expert）和非共享专家（Non-shared Expert）两类。共享专家在计算过程中始终保持激活状态，而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中，减少非共享专家参数间的知识冗余。

训练上，受Switch Transformers、ST-MoE和DeepSeekMoE等启发，元象引入负载均衡损失项，更好均衡专家间的负载；采用路由器z-loss项，确保训练高效和稳定。

架构选择则经过一系列对比实验得出（下图），在实验3与实验2中，总参数量和激活参数量相同，但前者的细粒度专家设计带来了更高的性能表现。实验4在此基础上，进一步划分共享和非共享两类专家，使得效果显著提升。实验5探索了专家大小等于标准FFN时，引入共享专家的做法，效果不甚理想。

元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型

对比实验设计方案

综合试验结果（下图），元象最终采用实验4对应的架构设置。展望未来，新近开源的Google Gemma与X（前Twitter）Grok等项目采用了比标准FFN更大的设定，元象也将在后续继续深入探索相关方向探索研，保持技术引领性。

元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型

对比实验效果

免费下载大模型

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A4.2B
ModelScope魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2B
Github：https://github.com/xverse-ai/XVERSE-MoE-A4.2B
问询发送：opensource@xverse.cn

以上是元象首個MoE大模型開源：4.2B激活參數，效果堪比13B模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 switch Token 对象 github https 负载均衡 AIGC llama

陳述：

本文轉載於：jiqizhixin.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠下一篇：「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

看更多