PRO | 為什麼基於 MoE 的大模型更值得關注？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

PRO | 為什麼基於 MoE 的大模型更值得關注？

PHPz

Aug 07, 2024 pm 07:08 PM

理論moe機器之心Pro

2023年，幾乎 AI 的每個領域都在以前所未有的速度進化，同時，AI也在不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer 作為 AI 大模型主流架構的局面是否會撼動？為何探索基於 MoE （專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10 份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。這篇解讀來自2023年 Week50 業內通訊 ?

PRO | 为什么基于 MoE 的大模型更值得关注？

專題解讀 為什麼基於 MoE 的大模型更值得關注？

日期：12 月12 日

事件：Mistral AI 開源了基於MoE（Mixture-of-Experts，專家混合）架構的模型Mixtral 8x7B，其效能達到Llama 2 70B 和GPT -3.5 的水平"的事件進行延展解讀。

首先，弄清楚MoE 是什麼及其來龍去脈

1、概念：

MoEEEEEEEE （Mixture of Experts）是一種混合模型，由多個子模型（即專家）組成，每個子模型都是局部模型，專門處理輸入空間的子集。決定每個資料應該被哪個模型去訓練，從而減輕不同類型樣本之間的干擾。門控模型組成稀疏門控制的深度學習技術。 🎜>

① 在門控網路的訓練中，每個樣本都會被分配到一個或多個專家中；

② 在專家網路的訓練中，每個專家都會被訓練以最小化其分配給它的樣本的誤差。整合學習是透過訓練練多個模型（基學習器）未解決相同問題，並且將它們的預測結果簡單組合（例如投票或平均）。整合學習的主要目標是透過減少過度擬合，提高泛化能力，以提高預測效能。常見的整合學習方法包括 Bagging，Boosting 和 Stacking。

4、MoE 歷史來源：

① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個想法與整合方法類似，目的是為由不同子網路組成的系統提供一種監督過程，每個單獨的網路或專家都專門處理輸入空間的不同區域。透過門控網路確定每個專家的權重。在訓練過程中，專家和門控都會被訓練。

② 在2010 年至2015 年期間，兩個不同的研究領域對MoE 的進一步發展做出了貢獻：

一是專家作為組件：在傳統的MoE 設定中，整個系統包括一個門控網路和多個專家。 MoEs 作為整個模型已經在支援向量機、高斯過程和其他方法中進行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探討了 MoEs 作為更深層網路元件的可能性。這使得模型可以同時變得龐大和高效。

另一個是條件計算：傳統的網路透過每一層處理所有輸入資料。在這個時期，Yoshua Bengio 研究了根據輸入 token 動態啟動或停用元件的方法。

③ 由此，人們開始在自然語言處理的脈絡下探索專家混合模型。在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中透過引入稀疏性，將其擴展到了一個 137B LSTM，從而實現了高規模下的快速推理。

為什麼基於 MoE 的大模型值得關注？

1、通常來講，模型規模的擴展會導致訓練成本顯著增加，計算資源的限製成為了大規模密集模型訓練的瓶頸。為了解決這個問題，基於稀疏 MoE 層的深度學習模型架構被提出。

2、稀疏混合專家模型（MoE）是一種特殊的神經網路架構，可以在不增加推理成本的情況下，為大型語言模型（LLM）增加可學習的參數，而指令調優（instruction tuning）則是一種訓練LLM 遵循指令的技術。

3、MoE+指令微調技術的結合，可大幅提升語言模型的效能。 2023 年7 月，Google、UC 柏克萊和MIT 等機構的研究者發表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》，證明了混合專家模型（MoE）與指令調優的結合能夠讓大型語言模型（LLM）的效能大幅提升。

① 具體來說，研究者在一組經過指令微調的稀疏混合專家模型FLAN-MOE 中，使用稀疏激活MoE，並用MoE 層替換Transformer 層的前饋組件，以提供更優的模型容量與運算彈性；其次，在FLAN 集合資料集的基礎上對FLAN-MOE 進行微調。

② 研究者基於上述方法研究在沒有指令調優的情況下在單一下游任務進行直接微調，在指令調優後對下游任務進行in-context 少樣本或零樣本泛化，以及在指令調優後對單一下游任務進行進一步微調等三種實驗設定下LLM 的效能差異。

③ 實驗結果表明，如果不使用指令調優，MoE 模型的性能通常不如與之計算能能力相當的密集模型。但當結合指令調優時，情況發生了變化。指令調優後的 MoE 模型（Flan-MoE）在多個任務上的表現超越了更大的密集模型，即使 MoE 模型的計算成本只是密集模型的三分之一。與密集模型相比。 MoE 模型從指令調優所獲得的效能提升更為顯著，因此當考慮計算效率與效能時，MoE 將成為大型語言模型訓練的有力工具。

4、此次，發布的 Mixtral 8x7B 模型同樣採用了稀疏混合專家網路。

① Mixtral 8x7B 是 decoder-only 的模型。前饋模組從 8 組不同的參數中進行選擇。在每一層網路中，對於每個 token，路由器網路選擇 8 組中的兩組（專家），來處理 token 並將其輸出累積組合。

② Mixtral 8x7B 模型在大多數基準測試中均匹配或優於 Llama 2 70B 以及 GPT3.5，推理速度快了 6 倍。

MoE 的重要優勢：稀疏性是什麼？

1、在傳統的密集模型中，對於每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中，處理輸入資料時只有少數專家模型被激活成者使用，而大部分專家模型處於未被激活狀態，這種狀態便是「稀疏」。而稀疏性是混合專家模型的重要優點，也是提升模型訓練和推理過程的效率的關鍵。

以上是PRO | 為什麼基於 MoE 的大模型更值得關注？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

個人黑客將是一隻非常兇猛的熊May 11, 2025 am 11:09 AM

網絡攻擊正在發展。通用網絡釣魚電子郵件的日子已經一去不復返了。網絡犯罪的未來是超個性化的，利用了容易獲得的在線數據和AI來製作高度針對性的攻擊。想像一個知道您的工作的騙子

教皇獅子座XIV揭示了AI如何影響他的名字選擇May 11, 2025 am 11:07 AM

新當選的教皇獅子座（Leo Xiv）在對紅衣主教學院的就職演講中，討論了他的同名人物教皇里奧XIII的影響，他的教皇（1878-1903）與汽車和汽車和汽車公司的黎明相吻合

AI可以使指導比以往任何時候都更有意義May 10, 2025 am 11:17 AM

我完全同意。我的成功與導師的指導密不可分。他們的見解，尤其是關於業務管理，構成了我的信念和實踐的基石。這種經驗強調了我對導師的承諾

AI發掘了採礦業的新潛力May 10, 2025 am 11:16 AM

AI 增强型矿业设备矿业作业环境恶劣且危险重重。人工智能系统通过将人类从最危险的环境中移除并增强人类能力，帮助提高整体效率和安全性。人工智能越来越多地用于为矿业作业中使用的自动驾驶卡车、钻机和装载机提供动力。这些 AI 驱动的车辆能够在危险环境中精确作业，从而提高安全性和生产力。一些公司已经开发出用于大型矿业作业的自动驾驶采矿车辆。在挑战性环境中运行的设备需要持续维护。然而，维护会使关键设备离线并消耗资源。更精确的维护意味着昂贵且必要的设备的正常运行时间增加以及显著的成本节约。 AI 驱动

為什麼AI代理會觸發25年來最大的工作場所革命May 10, 2025 am 11:15 AM

Salesforce首席執行官Marc Benioff預測了由AI代理商驅動的巨大的工作場所革命，這是Salesforce及其客戶群中已經進行的轉型。他設想從傳統市場轉變為一個較大的市場，重點是

隨著AI採用的飆升，人力資源將搖滾我們的世界May 10, 2025 am 11:14 AM

人力資源中AI的崛起：與機器人同事一起導航勞動力將人工智能集成到人力資源（HR）不再是未來派的概念。它正在迅速成為新現實。這種轉變影響了人力資源專業人員和員工，DEM

5 Chatgpt提示突破收入高原May 10, 2025 am 11:13 AM

您的營收突破就在眼前。打破天花板，將您的業務提升到一個全新的高度。這是可能的。複製、粘貼並修改 ChatGPT 中的方括號內容，並保持相同的聊天窗口打開，以便上下文得以延續。利用 ChatGPT 打破營收障礙：釋放您的增長潛力 10 倍增長思維您的目標讓您感到厭倦。曾經讓您興奮的商業願景現在感覺令人痛苦地安全。您達到了目標，卻感覺空虛。成功者並非憑運氣。他們設定大膽的目標，既令人恐懼又令人振奮。他們將商業視為一場遊戲，您也可以如此。追求更高的賭注。夢想更大。計劃更大。執行更大。看著您的成果超