2023年,幾乎 AI 的每個領域都在以前所未有的速度進化,同時,AI也在不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer 作為 AI 大模型主流架構的局面是否會撼動?為何探索基於 MoE (專家混合)架構的大模型成為業界新趨勢?大型視覺模型 (LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10 份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。這篇解讀來自2023年 Week50 業內通訊 ?
日期:12 月12 日
事件:Mistral AI 開源了基於MoE(Mixture-of-Experts,專家混合)架構的模型Mixtral 8x7B,其效能達到Llama 2 70B 和GPT -3.5 的水平"的事件進行延展解讀。
首先,弄清楚MoE 是什麼及其來龍去脈
1、概念:
MoEEEEEEEE (Mixture of Experts)是一種混合模型,由多個子模型(即專家)組成,每個子模型都是局部模型,專門處理輸入空間的子集。決定每個資料應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。門控模型組成稀疏門控制的深度學習技術。 🎜>
① 在門控網路的訓練中,每個樣本都會被分配到一個或多個專家中;② 在專家網路的訓練中,每個專家都會被訓練以最小化其分配給它的樣本的誤差。整合學習是透過訓練練多個模型(基學習器)未解決相同問題,並且將它們的預測結果簡單組合(例如投票或平均)。整合學習的主要目標是透過減少過度擬合,提高泛化能力,以提高預測效能。常見的整合學習方法包括 Bagging,Boosting 和 Stacking。
4、MoE 歷史來源:
① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個想法與整合方法類似,目的是為由不同子網路組成的系統提供一種監督過程,每個單獨的網路或專家都專門處理輸入空間的不同區域。透過門控網路確定每個專家的權重。在訓練過程中,專家和門控都會被訓練。
為什麼基於 MoE 的大模型值得關注?
1、通常來講,模型規模的擴展會導致訓練成本顯著增加,計算資源的限製成為了大規模密集模型訓練的瓶頸。為了解決這個問題,基於稀疏 MoE 層的深度學習模型架構被提出。 2、稀疏混合專家模型(MoE)是一種特殊的神經網路架構,可以在不增加推理成本的情況下,為大型語言模型(LLM)增加可學習的參數,而指令調優(instruction tuning)則是一種訓練LLM 遵循指令的技術。 3、MoE+指令微調技術的結合,可大幅提升語言模型的效能。 2023 年7 月,Google、UC 柏克萊和MIT 等機構的研究者發表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,證明了混合專家模型(MoE)與指令調優的結合能夠讓大型語言模型(LLM)的效能大幅提升。① 具體來說,研究者在一組經過指令微調的稀疏混合專家模型FLAN-MOE 中,使用稀疏激活MoE,並用MoE 層替換Transformer 層的前饋組件,以提供更優的模型容量與運算彈性;其次,在FLAN 集合資料集的基礎上對FLAN-MOE 進行微調。
② 研究者基於上述方法研究在沒有指令調優的情況下在單一下游任務進行直接微調,在指令調優後對下游任務進行in-context 少樣本或零樣本泛化,以及在指令調優後對單一下游任務進行進一步微調等三種實驗設定下LLM 的效能差異。
③ 實驗結果表明,如果不使用指令調優,MoE 模型的性能通常不如與之計算能能力相當的密集模型。但當結合指令調優時,情況發生了變化。指令調優後的 MoE 模型(Flan-MoE)在多個任務上的表現超越了更大的密集模型,即使 MoE 模型的計算成本只是密集模型的三分之一。與密集模型相比。 MoE 模型從指令調優所獲得的效能提升更為顯著,因此當考慮計算效率與效能時,MoE 將成為大型語言模型訓練的有力工具。
4、此次,發布的 Mixtral 8x7B 模型同樣採用了稀疏混合專家網路。
① Mixtral 8x7B 是 decoder-only 的模型。前饋模組從 8 組不同的參數中進行選擇。在每一層網路中,對於每個 token,路由器網路選擇 8 組中的兩組(專家),來處理 token 並將其輸出累積組合。
② Mixtral 8x7B 模型在大多數基準測試中均匹配或優於 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。
MoE 的重要優勢:稀疏性是什麼?
1、在傳統的密集模型中,對於每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中,處理輸入資料時只有少數專家模型被激活成者使用,而大部分專家模型處於未被激活狀態,這種狀態便是「稀疏」。而稀疏性是混合專家模型的重要優點,也是提升模型訓練和推理過程的效率的關鍵。
以上是PRO | 為什麼基於 MoE 的大模型更值得關注?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具