MoE大模型制作指南：零基础手打法，大神级教程揭秘

MoE大模型制作指南：零基础手打法，大神级教程揭秘

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 30, 2024 pm 02:42 PM

ai数据

传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！

Hugging Face上有一位机器学习大神，分享了如何从头开始建立一套完整的MoE系统。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

这个项目被作者叫做MakeMoE，详细讲述了从注意力构建到形成完整MoE模型的过程。

作者介绍，MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。

makemore是一个针对自然语言处理和机器学习的教学项目，意在帮助学习者理解并实现一些基本模型。

同样，MakeMoE也是在一步步的搭建过程中，帮助学习者更深刻地理解混合专家模型。

那么，这份“手搓攻略”具体都讲了些什么呢？

从头开始搭建MoE模型

和Karpathy的makemore相比，MakeMoE用稀疏的专家混合体代替了孤立的前馈神经网络，同时加入了必要的门控逻辑。

同时，由于过程中需要用到ReLU激活函数，makemore中的默认初始化方式被替换成了Kaiming He方法。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

想要创建一个MoE模型，首先要理解自注意力机制。

模型首先通过线性变换，将输入序列变换成用查询（Q）、键（K）和值（V）表示的参数。

这些参数随后被用于计算注意力分数，这些分数决定了在生成每个token时，模型对序列中每个位置的关注程度。

为了确保模型在生成文本时的自回归特性，即只能基于已经生成的token来预测下一个token，作者使用了多头因果自注意力机制。

这种机制通过一个掩码来实现将未处理的位置的注意力分数设置为负无穷大，这样这些位置的权重就会变为零。

多头因果则是让模型并行地执行多个这样的注意力计算，每个头关注序列的不同部分。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

完成自注意力机制的配置后，就可以创建专家模块了，这里的“专家模块”是一种多层感知器。

每个专家模块包含一个线性层，它将嵌入向量映射到一个更大的维度，然后通过非线性激活函数（如ReLU），再通过另一个线性层将向量映射回原始的嵌入维度。

这样的设计使得每个专家能够专注于处理输入序列的不同部分，并通过门控网络来决定在生成每个token时应该激活哪些专家。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

于是，接下来就要开始构建分配和管理专家的组件——门控网络。

这里的门控网络同样是通过一个线性层实现，该层将自注意力层的输出映射到专家模块的数量。

这个线性层的输出是一个分数向量，每个分数代表了对应专家模块对于当前处理的token的重要性。

门控网络会计算这个分数向量的top-k值并记录其索引，然后从中选择top-k个最大的分数，用来加权对应的专家模块输出。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

为了在训练过程中增加模型的探索性，作者还引入了噪声，避免所有token都倾向于被相同的专家处理。

这种噪声通常通过在分数向量上添加随机的高斯噪声实现。

MoE大模型制作指南：零基础手打法，大神级教程揭秘

获得结果后，模型有选择地将前k个值与相应token的前k个专家的输出相乘，然后相加形成加权和，构成模型的输出。

最后，将这些模块在一起，就得到一个MoE模型了。

针对以上的整个过程，作者都提供了相应的代码，可以到原文中具体了解。

另外，作者还制作了端到端的Jupyter笔记，可以在学习各模块的同时直接运行。

感兴趣的话，就赶快学起来吧！

原文地址：https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
笔记版本（GitHub）：https://github.com/AviSoori1x/makeMoE/tree/main

以上是MoE大模型制作指南：零基础手打法，大神级教程揭秘的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

外推指南

外推指南Apr 15, 2025 am 11:38 AM

介绍假设有一个农民每天在几周内观察农作物的进展。他研究了增长率，并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义

软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI（被定义为AI系统，旨在使用近似推理，模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。但是这对业务意味着什么

为AI前沿的不断发展的安全框架

为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变，AI需要专门为AI独特需求而设计的新型安全解决方案。云计算和安全课程的兴起在

生成AI的3种方法放大了企业家：当心平均值！

生成AI的3种方法放大了企业家：当心平均值！Apr 15, 2025 am 11:33 AM

企业家，并使用AI和Generative AI来改善其业务。同时，重要的是要记住生成的AI，就像所有技术一样，都是一个放大器 - 使得伟大和平庸，更糟。严格的2024研究O

Andrew Ng的新简短课程

Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

大语言模型（LLM）中的幻觉是不可避免的吗？

大语言模型（LLM）中的幻觉是不可避免的吗？Apr 15, 2025 am 11:31 AM

大型语言模型（LLM）和不可避免的幻觉问题您可能使用了诸如Chatgpt，Claude和Gemini之类的AI模型。这些都是大型语言模型（LLM）的示例，在大规模文本数据集上训练的功能强大的AI系统

60％的问题 - AI搜索如何消耗您的流量

60％的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根据行业和搜索类型，AI概述可能导致有机交通下降15-64％。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大学（Elon University）想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”，得出的结论是，大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序，非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具，帮助Web开发人员更好地理解保护Web应用程序的过程，并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞，难度各不相同。请注意，该软件中

EditPlus 中文破解版

EditPlus 中文破解版

体积小，语法高亮，不支持代码提示功能

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境，用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问，并防止学生使用未经授权的资源。

热门话题

gmail邮箱登陆入口在哪里

7510

15

1378

52

steam的账户名称是什么格式

78

11

win11激活密钥永久

53

19

NYT连接提示和答案

19

64