MoE大模型製作指南：零基礎手打法，大神級教學揭秘

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 30, 2024 pm 02:42 PM

ai數據

傳說中GPT-4的「致勝法寶」－MoE（混合專家）架構，自己也能手搓了！

Hugging Face上有一位機器學習大神，分享如何從頭開始建立一套完整的MoE系統。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

這個專案被作者叫做MakeMoE，詳細講述了從注意力建構到形成完整MoE模型的過程。

作者介紹，MakeMoE是受到OpenAI創始成員Andrej Karpathy的makemore啟發並以之為基礎編寫的。

makemore是一個針對自然語言處理和機器學習的教學項目，旨在幫助學習者理解並實現一些基本模型。

同樣，MakeMoE也是在一步一步的建構過程中，幫助學習者更深刻地理解混合專家模型。

那麼，這份「手搓攻略」具體都講了些什麼呢？

從頭開始建立MoE模型

和Karpathy的makemore相比，MakeMoE用稀疏的專家混合體取代了孤立的前饋神經網絡，同時加入了必要的門控邏輯。

同時，由於過程中需要用到ReLU激活函數，makemore中的預設初始化方式被替換成了Kaiming He方法。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

想要建立一個MoE模型，首先要理解自註意力機制。

模型先透過線性變換，將輸入序列轉換成用查詢（Q）、鍵（K）和值（V）表示的參數。

這些參數隨後被用於計算注意力分數，這些分數決定了在生成每個token時，模型對序列中每個位置的關注程度。

為了確保模型在生成文本時的自回歸特性，即只能基於已經生成的token來預測下一個token，作者使用了多頭因果自註意力機制。

這個機制透過一個遮罩來實現將未處理的位置的注意力分數設為負無窮大，這樣這些位置的權重就會變成零。

多頭因果則是讓模型並行地執行多個這樣的注意力計算，每個頭關注序列的不同部分。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

完成自註意力機制的配置後，就可以創建專家模組了，這裡的「專家模組」是一種多層感知器。

每個專家模組包含一個線性層，它將嵌入向量映射到一個更大的維度，然後透過非線性激活函數（如ReLU），再透過另一個線性層將向量映射回原始的嵌入維度。

這樣的設計使得每個專家能夠專注於處理輸入序列的不同部分，並透過門控網路來決定在產生每個token時應該啟動哪些專家。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

於是，接下來就要開始建構分配和管理專家的元件－門控網路。

這裡的門控網路同樣是透過一個線性層實現，該層將自註意力層的輸出映射到專家模組的數量。

這個線性層的輸出是一個分數向量，每個分數代表了對應專家模組對於目前處理的token的重要性。

門控網路會計算這個分數向量的top-k值並記錄其索引，然後從中選擇top-k個最大的分數，用來加權對應的專家模組輸出。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

為了在訓練過程中增加模型的探索性，作者也引入了噪聲，避免所有token都傾向於被相同的專家處理。

這種雜訊通常透過在分數向量上添加隨機的高斯雜訊來實現。

MoE大模型製作指南：零基礎手打法，大神級教學揭秘

獲得結果後，模型選擇性地將前k個值與對應token的前k個專家的輸出相乘，然後相加形成加權和，構成模型的輸出。

最後，將這些模組在一起，就得到一個MoE模型了。

針對以上的整個過程，作者都提供了對應的程式碼，可以到原文中具體了解。

另外，作者也製作了端到端的Jupyter筆記，可以在學習各模組的同時直接運作。

有興趣的話，就趕快學起來吧！

原文網址：https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
筆記版本（GitHub）：https://github. com/AviSoori1x/makeMoE/tree/main

#

以上是MoE大模型製作指南：零基礎手打法，大神級教學揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

在LLMS中調用工具

在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型（LLMS）的流行激增，工具稱呼功能極大地擴展了其功能，而不是簡單的文本生成。現在，LLM可以處理複雜的自動化任務，例如Dynamic UI創建和自主a

多動症遊戲，健康工具和AI聊天機器人如何改變全球健康

多動症遊戲，健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮，建立焦點或支持多動症的孩子嗎？隨著醫療保健在全球範圍內挑戰，尤其是在青年中的挑戰，創新者正在轉向一種不太可能的工具：視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入：獲勝者，失敗者和機遇

沒有關於AI的投入：獲勝者，失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明，儘管技術進步推動了經濟增長，但它並不能自行確保公平的收入分配或促進包容性人類發展，”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧

通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用，使用生成的AI作為您的談判導師和陪練夥伴。讓我們來談談。對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分，包括識別和解釋

泰德（Ted）從Openai，Google，Meta透露出庭，與我自己自拍

泰德（Ted）從Openai，Google，Meta透露出庭，與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人，包括Sam Altman，Eric Schmidt和Palmer Luckey。泰德（Ted）的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲（Joseph Stiglitz

約瑟夫·斯蒂格利茲（Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨（Joseph Stiglitz）是2001年著名的經濟學家，是諾貝爾經濟獎的獲得者。斯蒂格利茨認為，AI可能會使現有的不平等和合併權力惡化，並在一些主導公司手中加劇，最終破壞了經濟上的經濟。

什麼是圖形數據庫？

什麼是圖形數據庫？Apr 14, 2025 am 11:19 AM

圖數據庫：通過關係徹底改變數據管理隨著數據的擴展及其特徵在各個字段中的發展，圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由：策略，技術和Python實施

LLM路由：策略，技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型（LLM）路由：通過智能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型，每個模型都具有獨特的優勢和劣勢。有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境，安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問，並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

熱門話題

gmail信箱登陸入口在哪裡

7495

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

52

19

NYT連接提示和答案

19

51