搜尋
首頁科技週邊人工智慧PRO | 為什麼基於 MoE 的大模型更值得關注?
PRO | 為什麼基於 MoE 的大模型更值得關注?Aug 07, 2024 pm 07:08 PM
理論moe機器之心Pro

2023年,幾乎 AI 的每個領域都在以前所未有的速度進化,同時,AI也在不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer 作為 AI 大模型主流架構的局面是否會撼動?為何探索基於 MoE (專家混合)架構的大模型成為業界新趨勢?大型視覺模型 (LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10 份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。這篇解讀來自2023年 Week50 業內通訊 ?

PRO | 为什么基于 MoE 的大模型更值得关注?

專題解讀 為什麼基於 MoE 的大模型更值得關注?

日期:12 月12 日

事件:Mistral AI 開源了基於MoE(Mixture-of-Experts,專家混合)架構的模型Mixtral 8x7B,其效能達到Llama 2 70B 和GPT -3.5 的水平"的事件進行延展解讀。

首先,弄清楚MoE 是什麼及其來龍去脈

1、概念:

MoEEEEEEEE (Mixture of Experts)是一種混合模型,由多個子模型(即專家)組成,每個子模型都是局部模型,專門處理輸入空間的子集。決定每個資料應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。門控模型組成稀疏門控制的深度學習技術。 🎜>

① 在門控網路的訓練中,每個樣本都會被分配到一個或多個專家中;

② 在專家網路的訓練中,每個專家都會被訓練以最小化其分配給它的樣本的誤差。整合學習是透過訓練練多個模型(基學習器)未解決相同問題,並且將它們的預測結果簡單組合(例如投票或平均)。整合學習的主要目標是透過減少過度擬合,提高泛化能力,以提高預測效能。常見的整合學習方法包括 Bagging,Boosting 和 Stacking。

4、MoE 歷史來源:

① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個想法與整合方法類似,目的是為由不同子網路組成的系統提供一種監督過程,每個單獨的網路或專家都專門處理輸入空間的不同區域。透過門控網路確定每個專家的權重。在訓練過程中,專家和門控都會被訓練。

② 在2010 年至2015 年期間,兩個不同的研究領域對MoE 的進一步發展做出了貢獻:

一是專家作為組件:在傳統的MoE 設定中,整個系統包括一個門控網路和多個專家。 MoEs 作為整個模型已經在支援向量機、高斯過程和其他方法中進行了探索。 《Learning Factored Representations in a Deep Mixture of Experts》工作探討了 MoEs 作為更深層網路元件的可能性。這使得模型可以同時變得龐大和高效。

另一個是條件計算:傳統的網路透過每一層處理所有輸入資料。在這個時期,Yoshua Bengio 研究了根據輸入 token 動態啟動或停用元件的方法。

③ 由此,人們開始在自然語言處理的脈絡下探索專家混合模型。在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中透過引入稀疏性,將其擴展到了一個 137B LSTM,從而實現了高規模下的快速推理。

為什麼基於 MoE 的大模型值得關注?

1、通常來講,模型規模的擴展會導致訓練成本顯著增加,計算資源的限製成為了大規模密集模型訓練的瓶頸。為了解決這個問題,基於稀疏 MoE 層的深度學習模型架構被提出。

2、稀疏混合專家模型(MoE)是一種特殊的神經網路架構,可以在不增加推理成本的情況下,為大型語言模型(LLM)增加可學習的參數,而指令調優(instruction tuning)則是一種訓練LLM 遵循指令的技術。

3、MoE+指令微調技術的結合,可大幅提升語言模型的效能。 2023 年7 月,Google、UC 柏克萊和MIT 等機構的研究者發表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,證明了混合專家模型(MoE)與指令調優的結合能夠讓大型語言模型(LLM)的效能大幅提升。

① 具體來說,研究者在一組經過指令微調的稀疏混合專家模型FLAN-MOE 中,使用稀疏激活MoE,並用MoE 層替換Transformer 層的前饋組件,以提供更優的模型容量與運算彈性;其次,在FLAN 集合資料集的基礎上對FLAN-MOE 進行微調。

② 研究者基於上述方法研究在沒有指令調優的情況下在單一下游任務進行直接微調,在指令調優後對下游任務進行in-context 少樣本或零樣本泛化,以及在指令調優後對單一下游任務進行進一步微調等三種實驗設定下LLM 的效能差異。

③ 實驗結果表明,如果不使用指令調優,MoE 模型的性能通常不如與之計算能能力相當的密集模型。但當結合指令調優時,情況發生了變化。指令調優後的 MoE 模型(Flan-MoE)在多個任務上的表現超越了更大的密集模型,即使 MoE 模型的計算成本只是密集模型的三分之一。與密集模型相比。 MoE 模型從指令調優所獲得的效能提升更為顯著,因此當考慮計算效率與效能時,MoE 將成為大型語言模型訓練的有力工具。

4、此次,發布的 Mixtral 8x7B 模型同樣採用了稀疏混合專家網路。

① Mixtral 8x7B 是 decoder-only 的模型。前饋模組從 8 組不同的參數中進行選擇。在每一層網路中,對於每個 token,路由器網路選擇 8 組中的兩組(專家),來處理 token 並將其輸出累積組合。

② Mixtral 8x7B 模型在大多數基準測試中均匹配或優於 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要優勢:稀疏性是什麼?

1、在傳統的密集模型中,對於每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中,處理輸入資料時只有少數專家模型被激活成者使用,而大部分專家模型處於未被激活狀態,這種狀態便是「稀疏」。而稀疏性是混合專家模型的重要優點,也是提升模型訓練和推理過程的效率的關鍵。

以上是PRO | 為什麼基於 MoE 的大模型更值得關注?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

手机摄影技术让以假乱真的好莱坞级电影特效视频走红手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具