Maison  >  Article  >  Périphériques technologiques  >  Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

WBOY
WBOYoriginal
2024-06-05 22:14:46871parcourir

Dans la vague des grands modèles, la formation et le déploiement de LLM à ensembles denses de pointe posent d'énormes défis en termes d'exigences informatiques et de coûts associés, en particulier à des échelles de dizaines ou de centaines de milliards de paramètres. Pour relever ces défis, les modèles clairsemés, tels que les modèles Mixture of Experts (MoE), sont devenus de plus en plus importants. Ces modèles offrent une alternative économiquement viable en distribuant le calcul à divers sous-modèles spécialisés, ou « experts », avec le potentiel d'égaler, voire de dépasser, les performances de modèles à ensemble dense avec de très faibles besoins en ressources.

Le 3 juin, une autre nouvelle importante est venue du domaine des grands modèles open source : Kunlun Wanwei a annoncé l'open source du grand modèle clairsemé de 200 milliards Skywork-MoE, qui réduit considérablement le coût d'inférence tout en maintenant de solides performances.

Extendu basé sur le précédent point de contrôle intermédiaire du modèle open source Skywork-13B de Kunlun Wanwei. Il s'agit du premier grand modèle open source de 100 milliards de MoE qui applique et implémente pleinement la technologie MoE Upcycling. un seul serveur 4090, des centaines de milliards de grands modèles MoE.

Ce qui attire davantage l'attention de la grande communauté des modèles, c'est que les poids des modèles et les rapports techniques de Skywork-MoE sont entièrement open source et gratuits pour un usage commercial, aucune application n'est requise.

  • Adresse de téléchargement du poids du modèle :

○ https://huggingface.co/Skywork/Skywork-MoE-base

○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

  • Modèle d'entrepôt open source : https://github.com/SkyworkAI/Skywork-MoE

  • Modèle de rapport technique : https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe - tech-report.pdf

  • Code d'inférence de modèle : (prend en charge l'inférence de charge quantifiée 8 bits sur des serveurs 8x4090) https://github.com/SkyworkAI/vllm

Skywork-MoE est actuellement capable de déduire sur Serveurs 8x4090 Le plus grand modèle MoE open source. Le serveur 8x4090 dispose d'un total de 192 Go de mémoire GPU. Sous quantification FP8 (le poids occupe 146 Go), en utilisant la méthode de raisonnement parallèle Tensor Parallel non uniforme mise au point par l'équipe Kunlun Wanwei, Skywork-MoE peut atteindre 2 200 jetons/s dans un délai approprié. taille du lot. Hésitation.

Pour le code complet du cadre d'inférence et l'environnement d'installation associés, veuillez consulter : https://github.com/SkyworkAI/Skywork-MoE

Skywork-MoE Introduction

Ce modèle open source Skywork-MoE appartient à Tiangong La série de modèles R&D 3.0 est le modèle de milieu de gamme (Skywork-MoE-Medium). Le nombre total de paramètres du modèle est de 146B, le nombre de paramètres d'activation est de 22B et il y a 16 experts au total. Chaque taille d'expert est de 13B. , et 2 d'entre eux sont activés à chaque fois.

Il est entendu que Tiangong 3.0 a également formé deux modèles MoE, 75B (Skywork-MoE-Small) et 400B (Skywork-MoE-Large), qui ne sont pas inclus dans cet open source.

Kunlun Wanwei a évalué Skywork-MoE sur la base des listes d'évaluation actuelles des principaux modèles grand public. Avec le même montant de paramètre d'activation de 20B (montant de calcul d'inférence), les capacités de Skywork-MoE sont à la pointe de l'industrie, proches du 70B Dense. modèle. Cela réduit le coût d’inférence du modèle de près de 3 fois.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

Il convient de noter que la taille totale des paramètres de Skywork-MoE est 1/3 plus petite que celle de DeepSeekV2, permettant d'obtenir des capacités similaires avec une taille de paramètre plus petite.

Innovation technique

Afin de résoudre les problèmes de formation difficile du modèle MoE et de mauvaises performances de généralisation, Skywork-MoE a conçu deux algorithmes d'optimisation de la formation :

Opération de normalisation des logits de Gating

Skywork-MoE dans Gating A new L'opération de normalisation est ajoutée à la logique de distribution de jetons de la couche, ce qui rend l'apprentissage des paramètres de la couche de déclenchement plus incliné vers les 2 meilleurs experts sélectionnés et augmente la confiance du modèle MoE pour les 2 premiers :

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open sourceAdaptatif Aux Loss

est différent de la perte aux traditionnelle avec des coefficients fixes (hyperparamètres fixes). Skywork-MoE permet au modèle de sélectionner de manière adaptative les coefficients d'hyperparamètres de perte aux appropriés à différentes étapes de la formation MoE, maintenant ainsi le taux de chute des jetons dans les limites. intervalle approprié, la répartition des experts peut être équilibrée et l'apprentissage des experts peut être différencié, améliorant ainsi les performances globales et le niveau de généralisation du modèle. Au début de la formation MoE, en raison d'un apprentissage insuffisant des paramètres, le taux de suppression des jetons est trop élevé (la différence de distribution des jetons est trop grande à ce stade, une perte auxiliaire plus importante est nécessaire pour aider à équilibrer la charge des jetons plus tard). étape de la formation MoE, l'équipe Skywork-MoE espère qu'un certain degré de différenciation est toujours assuré entre les experts pour éviter la tendance de Gating à distribuer des jetons de manière aléatoire, une perte aux plus faible est donc nécessaire pour réduire la correction.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

Training Infra

Comment mener efficacement une formation distribuée à grande échelle des modèles MoE est un défi difficile. Skywork-MoE propose deux conceptions d'optimisation parallèles importantes pour atteindre un débit de formation de 38 % de MFU sur un cluster de kilocalories, où MFU calcule la charge de calcul théorique avec un paramètre d'activation de 22B.

Données expertes parallèles

Différent des conceptions EP (Expert Parallel) et ETP (Expert Tensor Parallel) existantes dans la communauté Megatron-LM, l'équipe Skywork-MoE a proposé une solution de conception parallèle appelée Expert Data Parallel. Cette solution parallèle peut être utilisée dans Expert When the. Le nombre est petit, le modèle peut toujours être segmenté efficacement et la communication all2all introduite par Expert peut également être optimisée et masquée au maximum. Comparé à la limitation d'EP sur le nombre de GPU et à l'inefficacité d'ETP sur les clusters de kilo-cartes, EDP peut mieux résoudre les problèmes parallèles de la formation distribuée à grande échelle du MoE. En même temps, la conception d'EDP est simple, robuste, facile à étendre. et peut être comparé Mise en œuvre et vérification rapides. E Un des exemples EDP les plus simples, TP = 2, EP = 2 dans le cas de deux cartes, dans lequel la partie attention utilise Tensor Parallel, la partie Expert utilise Expert Parallel

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

coupe non uniforme eau parallèle eau parallèle eau En raison du calcul d'intégration de la première étape et du calcul de perte de la dernière étape, ainsi que de l'existence du Pipeline Buffer, il existe un déséquilibre évident entre la charge de calcul et la charge de mémoire vidéo de chaque étape lorsque le La couche est divisée uniformément sous le parallélisme du pipeline. L'équipe Skywork-MoE a proposé une méthode de segmentation parallèle de pipeline non uniforme et d'allocation de couches de recalcul pour équilibrer la charge globale de la mémoire informatique/graphique et améliorer le débit de formation de bout en bout d'environ 10 %.

Comparez les bulles parallèles du pipeline sous segmentation uniforme et segmentation non uniforme : pour un LLM à 24 couches, (a) est divisé uniformément en 4 étapes, et le nombre de couches dans chaque étape est : [ 6 , 6, 6, 6] (b) est une méthode de division non uniforme optimisée, qui est divisée en 5 étapes. Le nombre de couches dans chaque étape est : [5, 5, 5, 5, 4]. l'étage intermédiaire est rempli d'eau courante, les bulles inégalement divisées sont encore plus basses.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

De plus, Skywork-MoE a également mené une série d'expériences basées sur la loi de mise à l'échelle pour explorer les contraintes qui affectent les performances des modèles MoE de formation Upcycling et From Scratch.

Une règle empirique qui peut être suivie est la suivante : si les FLOP de l'entraînement du modèle MoE sont plus de 2 fois supérieurs à ceux de l'entraînement du modèle Dense, alors il sera préférable de choisir depuis Scratch pour entraîner le MoE. choisir Upcycling pour former le MoE peut réduire considérablement le coût de la formation.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn