搜索
首页科技周边人工智能PRO | 为什么基于 MoE 的大模型更值得关注?
PRO | 为什么基于 MoE 的大模型更值得关注?Aug 07, 2024 pm 07:08 PM
理论moe机器之心Pro

2023年,几乎 AI 的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索基于 MoE (专家混合)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年 Week50 业内通讯 ?

PRO | 为什么基于 MoE 的大模型更值得关注?

专题解读 为什么基于 MoE 的大模型更值得关注?

日期:12 月 12 日

事件:Mistral AI 开源了基于 MoE(Mixture-of-Experts,专家混合)架构的模型 Mixtral 8x7B,其性能达到 Llama 2 70B 和 GPT-3.5 的水平"的事件进行延展解读。

首先,弄清楚 MoE 是什么及其来龙去脉

1、概念:

MoE(Mixture of Experts)是一种混合模型,由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。MoE 的核心思想是使用一个门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。

2、主要构成:

混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE 通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。

① 在门控网络的训练中,每个样本都会被分配到一个或多个专家中;
② 在专家网络的训练中,每个专家都会被训练以最小化其分配给它的样本的误差。

3、MoE 的「前身」:

MoE 的「前身」是集成学习(Ensemble Learning)。集成学习是通过训练练多个模型(基学习器)未解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成学习的主要目标是通过减少过拟合,提高泛化能力,以提高预测性能。常见的集成学习方法包括 Bagging,Boosting 和 Stacking。

4、MoE 历史来源:

① MoE 的根源可以追溯到 1991 年的论文《 Adaptive Mixture of Local Experts》。这个想法与集成方法类似,目的是为由不同子网络组成的系统提供一种监督过程,每个单独的网络或专家都专门处理输入空间的不同区域。通过门控网络确定每个专家的权重。在训练过程中,专家和门控都会被训练。

② 在 2010 年至 2015 年期间,两个不同的研究领域对 MoE 的进一步发展做出了贡献:

一是专家作为组件:在传统的 MoE 设置中,整个系统包括一个门控网络和多个专家。MoEs 作为整个模型已经在支持向量机、高斯过程和其他方法中进行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作为更深层网络组件的可能性。这使得模型可以同时变得庞大和高效。

另一个是条件计算:传统的网络通过每一层处理所有输入数据。在这个时期,Yoshua Bengio 研究了根据输入 token 动态激活或停用组件的方法。

③ 由此,人们开始在自然语言处理的背景下探索专家混合模型。在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通过引入稀疏性,将其扩展到了一个 137B LSTM,从而实现了高规模下的快速推理。

为什么基于 MoE 的大模型值得关注?

1、通常来讲,模型规模的扩展会导致训练成本显著增加,计算资源的限制成为了大规模密集模型训练的瓶颈。为了解决这个问题,基于稀疏 MoE 层的深度学习模型架构被提出。

2、稀疏混合专家模型(MoE)是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数,而指令调优(instruction tuning)则是一种训练 LLM 遵循指令的技术。

3、MoE+指令微调技术的结合,可大幅度提升语言模型的性能。2023 年 7 月,谷歌、UC 伯克利和 MIT 等机构的研究者发表了论文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,证明了混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

① 具体来说,研究者在一组经过指令微调的稀疏混合专家模型 FLAN-MOE 中,使用稀疏激活 MoE,并用 MoE 层替换 Transformer 层的前馈组件,以提供更优的模型容量与计算灵活性;其次,在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。

② 研究者基于上述方法研究在没有指令调优的情况下在单个下游任务进行直接微调,在指令调优后对下游任务进行 in-context 少样本或零样本泛化,以及在指令调优后对单个下游任务进行进一步微调等三种实验设置下 LLM 的性能区别。

③ 实验结果表明,如果不使用指令调优,MoE 模型的性能通常不如与之计算能能力相当的密集模型。但当结合指令调优时,情况发生了变化。指令调优后的 MoE 模型(Flan-MoE)在多个任务上的表现超越了更大的密集模型,即使 MoE 模型的计算成本只是密集模型的三分之一。与密集模型相比。MoE 模型从指令调优中获得的性能提升更为显著,因此当考虑计算效率与性能时,MoE 将成为大型语言模型训练的有力工具。

4、此次,发布的 Mixtral 8x7B 模型同样采用了稀疏混合专家网络。

① Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层网络中,对于每个 token,路由器网络选择 8 组中的两组(专家),来处理 token 并将其输出累加组合。

② Mixtral 8x7B 模型在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要优势:稀疏性是什么?

1、在传统的密集模型中,对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中,处理输入数据时只有少数专家模型被激活成者使用,而大部分专家模型处于未被激活状态,这种状态便是「稀疏「。而稀疏性是混合专家模型的重要优点,也是提升模型训练和推理过程的效率的关键。

PRO | 为什么基于 MoE 的大模型更值得关注?

以上是PRO | 为什么基于 MoE 的大模型更值得关注?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

背景与前景控制更加精细,编辑更加快捷:BEVControl的两阶段方法背景与前景控制更加精细,编辑更加快捷:BEVControl的两阶段方法Sep 07, 2023 pm 11:21 PM

本文将介绍一种通过BEVSketch布局来精确生成多视角街景图片的方法在自动驾驶领域,图像合成被广泛应用于提升下游感知任务的性能在计算机视觉领域,提升感知模型性能的一个长期存在的研究难题是通过合成图像来实现。在以视觉为中心的自动驾驶系统中,使用多视角摄像头,这个问题变得更加突出,因为有些长尾场景是永远无法收集到的根据图1(a)所示,现有的生成方法将语义分割风格的BEV结构输入生成网络,并输出合理的多视角图像。在仅根据场景级指标进行评估时,现有方法似乎能合成照片般逼真的街景图像。然而,一旦放大,我

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器