Rumah >Peranti teknologi >AI >Huawei GTS LocMoE+: Seni bina MoE berskala dan pertalian tinggi, overhed rendah untuk mencapai penghalaan aktif

Huawei GTS LocMoE+: Seni bina MoE berskala dan pertalian tinggi, overhed rendah untuk mencapai penghalaan aktif

PHPzasal: 2024-07-19 17:31:501063semak imbas

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本論文共同一作為李婧博士，孫訓志傑和林大超推博士，主要成員來自GTS AI計算Lab，主要研究及落地領域包含LLM加速、AI訓練保障和圖計算。

MoE 因其在訓推流程中低銷高效的特點，近兩年在大語言模型領域大放異彩。身為 MoE 的靈魂，專家如何能發揮最大的學習潛能，相關的研究與討論層出不窮。先前，華為 GTS AI 運算 Lab 的研究團隊提出了 LocMoE ，包括新穎的路由網路結構、輔助降低通訊開銷的本地性 loss 等，引發了廣泛關注。

LocMoE 的上述設計有效緩解了部分MoE 經典結構在訓練中的瓶頸，如: 專家路由演算法可能無法有效區分token，以及通訊同步效率受限於節點內和節點間的傳輸頻寬差異等。此外，LocMoE 證明並求解出在能夠成功處理判別性 token 的前提下專家容量的下限。此下限是根據 token 被動派發給專家的場景下，判別性 token 存在於 token 批次中的機率分佈而得出。那麼，如果專家同樣具備擇優 token 的能力，判別性 token 被處理的機率將大幅提高，專家容量下限將能進一步壓縮。

在上述設想的基礎上，該團隊進一步提出了基於低開銷主動路由的 MoE 架構，將其命名為 LocMoE+。 LocMoE+ 繼承了 LocMoE 高判別性專家以及本地性通訊優勢，進一步改造路由策略，定義 token 與專家之間的親和力指標，並以此指標入手，更有效率完成 token 分派，進而提升訓練效率。

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

論文連結：https://arxiv.org/pdf/2406.00023

論文簡介主動路由，提升一定容量下處理判別性token 的機率，進而降低取樣雜訊並提升訓練效率。論文從 token 和其被分派的專家之間的關係入手，以低計算開銷的方案量化和定義了專家與 token 之間的親和性。據此，該論文實現了全局的自適應路由策略，並基於親和性分數以專家維度對 token 進行重排和選擇。同時，專家容量的下限被證明隨著 token 特徵分佈的穩定而逐漸減小，訓練開銷得以降低。

該論文率先結合兩種路由機制，根據學習性路由策略中token 傾向於路由至與其夾角更小的專家的發現，打破了主動路由現存方案開銷過大影響訓練效率的障礙，並與被動路由的本質保持統一。

值得一提的是，作者選用了和LocMoE 工作完全不同的硬體環境（伺服器型號，NPU卡型號，集群組網方案）、訓練框架和骨幹模型，以證明該系列工作的高擴展性和易於移植性。

自適應雙向路由分派機制

背景介紹1

背景介紹

1 router，直接把整個token 特徵進行分派；

（2）soft router，把token 特徵的加權組合分派。

本文延續考慮（1）因其較低的計算代價。而對於hard router 場景，可分為1）Token Choice Router (TCR)，也就是讓每個token 去選top-k 專家；2）Expert Choice Router (ECR)，也就是讓每個專家去選擇top -C 合適的token。由於容量限制，每位專家接收的 token 數有上限 C，因此在場景 1）中，會對每個專家接收的 token進行截斷：

前人工作指出MoE 訓練分為兩階段：Phase 1. 路由訓練，保障路由可以合理分派token，也就是能把不同領域或差異大的token 進行區分和分派給不同專家；Phase 2. 由於token 路由的作用，每個專家接收到相同領域或性質相近的token，每個專家在經歷一定訓練後就可以習得相關領域和性質的知識。總結來說，MoE 每步訓練「成功」的關鍵在於 token 分派的正確和合理性。

該文貢獻

（1）透過softmax 活化函數推演，專家與token 之間的餘弦相似度則能較為精確地測量親和性：2）從理論建模角度，分析TCR 和ECR 兩個常見場景下單次訓練成功率：

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

基於理論，作者指出

在模型訓練初期，路由分

在模型訓練初期，路由分派token 能力分差每次訓練TCR 要比ECR 以更高機率成功訓練，而且需要較大的專家容量保證選到合適的token。
在模型訓練後期，路由有一定能力正確分派 token 時，每次訓練 ECR 要比 TCR 以更高概率成功訓練，此時只需要較小的容量就可以選到合適的 token。

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

該理論也很符合直觀，路由沒有分派能力時，不如讓token 隨機選擇專家，而當路由有一定分派能力，也就是專家能選到合適token 的時候，使用ECR 更合適。因此作者推薦 TCR 向 ECR 方式的轉變，提出了全局層級的自適應路由切換策略，同時基於專家容量的需求估計，在訓練後期使用較小的專家容量。

該論文的實驗在昇騰910B3 NPU 的自建集群上進行，得益於中國一致性協議多卡場景下實現的高效能設備間資料通信，以及專為昇騰處理器設計的華為集合通訊庫（HCCL）在HCCS 等高速鏈路上實現高效能分散式訓練。實驗採用相容於昇騰 NPU 的 PyTorch for Ascend 框架和專為昇騰設備定制的加速庫 AscendSpeed 和訓練框架 ModelLink，專注於 LLM 並行策略和通訊遮掩優化。

訓練效率

實驗結果表明，在不影響模型訓練收斂性或有效性的情況下，每個專家至少需要處理的token數量較基線可以減少60% 以上。結合通訊優化，在 32 卡、64 卡和 256 卡的集群規模下，訓練效率平均提高 5.4% 至 46.6%。

顯存佔用

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

LocMoE+ 對於顯存佔用也存在一定增益，尤其是集群規模較小計算較密集的場景。使用 Ascend Insight 工具對顯存監控樣本進行分析，可以看出，LocMoE+ 顯存使用相比於基線下降了 4.57% 至 16.27%，相比於 LocMoE 下降了 2.86% 至 10.5%。隨著群集規模的增大，顯存佔用的差距隨之縮小。

Penilaian Keberkesanan

Penilaian sumber terbuka menetapkan C-Eval dan TeleQnA, serta set penilaian domain ICT yang dibina secara bebas GDAD, digunakan untuk menilai keupayaan LocMoE+ dalam pengetahuan am dan pengetahuan domain. Antaranya, GDAD meliputi sejumlah 47 sub-item, termasuk 18,060 sampel, untuk mengkaji prestasi model dalam tiga sistem penilaian utama tugas domain, peperiksaan pensijilan kecekapan domain dan keupayaan am.

Selepas SFT mencukupi, LocMoE+ meningkat secara purata kira-kira 20.1% berbanding garis dasar dalam 16 sub-kebolehan keupayaan tugas domain, dan bertambah baik sebanyak kira-kira 3.5% berbanding LocMoE. Peperiksaan pensijilan kecekapan domain masing-masing meningkat sebanyak 16% dan 4.8%. Di antara 18 sub-keupayaan keupayaan am, LocMoE+ meningkat masing-masing kira-kira 13.9% dan 4.8%. Secara keseluruhan, LocMoE+ menunjukkan peningkatan prestasi masing-masing sebanyak 9.7% hingga 14.1% pada GDAD, C-Eval dan TeleQnA. 华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

Atas ialah kandungan terperinci Huawei GTS LocMoE+: Seni bina MoE berskala dan pertalian tinggi, overhed rendah untuk mencapai penghalaan aktif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构分布式 for Token 继承算法 pytorch https router

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di siniArtikel seterusnya：LLama+Mistral+…+Yi=? Rangka kerja pembelajaran bersepadu model besar heterogen tanpa latihan DeePEn ada di sini

Artikel berkaitan

Lihat lagi