Deepseek est ici avec son jour 2 de #OpenSourceweek et aujourd'hui, ils ont introduit DeepPep - une bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE. Jusqu'à présent, j'ai été complètement impressionné par Deepseek et leur réponse aux modèles d'un milliard de dollars d'Openai, Meta et plus encore. Maintenant, ils sont ouverts dans les éléments constitutifs de l'exploration d'AGI. Avec les 5 dépositions (2 déjà publiées), ils mettent en valeur l'engagement en matière de transparence, de collaboration communautaire et d'avancement dans l'IA.
Le jour 1, l'équipe de Deepseek a publié Flashmla et vous pouvez en lire ici - Deepseek #OpenSourceweek Day 1: Sortie de FlashMla.
Aujourd'hui, nous allons parler du deepp en détail.
Faits saillants de la clé de la version
- COMMUNICATION EFFICACE ET OPTIMISE TOUT-TOUT
- INTRANODE ET ENTERNODE Soutien avec NVLink et RDMA
- grains à haut débit pour la formation et le préfills d'inférence
- grains de faible latence pour le décodage d'inférence
- support de répartition FP8 native
- Contrôle des ressources GPU flexible pour la communication de calcul chevauchant
Table des matières
- DeepP: Bibliothèque de communication optimisée pour le MOE et le parallélisme expert
- Pourquoi Deepseek l'ouvre?
- Qu'est-ce qu'un mélange d'experts (MOE)?
- Comment fonctionne-t-il dans les modèles de transformateur? Modèles
- Efficace et optimisé de la communication
- Intranode et de la prise en charge de l'internes avec NVLink et RDMA
- High-Throughput Lernel pour l'entraînement pour l'entraînement pour l'entraînement pour l'entraînement pour l'entraînement inférieur décodage
- support de répartition FP8 natif
- Contrôle des ressources GPU flexible pour le chevauchement des communications de calcul
- Essayez de vous profonde
- DeepPE est une bibliothèque de communication haute performance conçue spécifiquement pour le mélange d'Experts (MOE) et le parallélisme expert (EP). Il dispose de noyaux GPU tous à tous à tous - communément appelés MOE Dispatch and Combine - disant un débit exceptionnel et une latence minimale. De plus, DeepEP prend en charge les calculs à faible précision, y compris FP8, garantissant la flexibilité des charges de travail en profondeur.
- Pour compléter l'algorithme de déclenchement limité en groupe introduit dans le papier Deepseek-V3, DeepEP fournit des noyaux spécialisés adaptés à un transfert de bande passante du domaine asymétrique. Ces noyaux optimisent les transferts de données entre différents domaines matériels, tels que NVLink et RDMA, maximisant le débit pour les tâches de formation de formation et d'inférence. De plus, la bibliothèque comprend des contrôles intégrés pour gérer l'utilisation des multiprocesseurs en streaming (SM).
Pour les scénarios d'inférence qui exigent une latence ultra-bas, en particulier pendant le décodage, DeepPe intègre un ensemble dédié de noyaux RDMA uniquement pour réduire considérablement les retards de communication. De plus, il utilise une approche innovante basée sur le crochet pour chevaucher la communication avec le calcul - sans consommation de ressources SM - en infirmier une efficacité optimale.
Pourquoi Deepseek l'ouvre?
La décision de Deepseek d'ouvrir la source de sa technologie consiste à rendre l'IA de pointe accessible à tous. En partageant ses innovations, il habilite les développeurs, les chercheurs et les entreprises dans toutes les industries - que ce soit dans les soins de santé, la science du climat ou la défense - pour repousser les limites et construire des solutions encore plus avancées. L'Open d'accès favorise la collaboration accélère les percées et garantit que le développement de l'IA n'est pas limité à quelques privilégiés.
DeepPE est la «première bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE».
et la meilleure partie? Les outils de Deepseek sont disponibles sur GitHub, ce qui permet à quiconque d'explorer, de contribuer et d'affiner davantage la technologie.
Maintenant, comprenons ce qu'est le mélange d'experts (MOE)
Qu'est-ce qu'un mélange d'experts (MOE)?
La taille d'un modèle joue un rôle crucial dans la détermination de sa qualité. Avec un budget de calcul fixe, il est généralement plus efficace de former un modèle plus large pour moins d'étapes plutôt qu'un modèle plus petit pour plus d'étapes. C'est là que le mélange d'experts (MOE) entre en jeu - il permet aux modèles d'évoluer de manière significative tout en optimisant l'efficacité de calcul.
MOE est une architecture de réseau neuronal conçue pour optimiser la formation et l'inférence du modèle en activant sélectivement un sous-ensemble de paramètres pendant le calcul. Cela permet l'utilisation de modèles beaucoup plus grands sans augmentation proportionnelle du coût de calcul.
MOE se compose principalement de deux composants clés
- Calques de MOE clairsemées - Celles-ci remplacent les couches traditionnelles de réseau d'alimentation dense (FFN). Au lieu d'une seule FFN, les couches MOE se composent de plusieurs experts (par exemple, 8 réseaux séparés). Chaque expert fonctionne comme un réseau neuronal autonome, généralement un FFN, mais dans certains cas, ces experts peuvent être des structures plus complexes ou même des moes hiérarchiques.
- Router ou Gate Network - Ce mécanisme détermine quels jetons sont affectés à quels experts. Par exemple, dans une séquence donnée, un jeton peut être dirigé vers l'expert 2, tandis qu'un autre est traité par l'expert 1. Un choix de conception clé dans le MOE est la façon dont les jetons sont distribués entre les experts. Le mécanisme de routage est régi par des paramètres d'apprentissage qui sont formés aux côtés du reste du modèle.
Comment MOE fonctionne-t-il dans les modèles de transformateurs?
Dans un modèle de transformateur standard, chaque jeton est traité à travers des couches FFN denses. Cependant, dans les modèles MOE, ces couches FFN denses sont remplacées par des couches MOE, composées de plusieurs experts et d'un mécanisme de déclenchement. Pendant l'inférence et la formation, seul un sous-ensemble de ces experts est activé par jeton, réduisant le calcul global tout en maintenant la capacité du modèle.
Avantages des modèles MOE
- pré-entraînement efficace - MOE permet de préteindre de grands modèles avec des exigences de calcul significativement plus faibles par rapport aux modèles denses, permettant aux chercheurs de former des modèles plus rapidement sans coûts matériels excessifs.
- Inférence plus rapide - Étant donné qu'une partie des paramètres du modèle est utilisée à tout moment, l'inférence est considérablement plus efficace par rapport à un modèle dense de taille totale équivalente.
- Évolutivité - MOE permet aux chercheurs d'augmenter la taille du modèle et la taille de l'ensemble de données tout en restant dans le même budget de calcul qu'un modèle dense.
Le mélange d'experts (MOE) est une approche puissante pour l'échelle des modèles de transformateurs efficacement, ce qui permet de former des modèles massifs avec des coûts de calcul réduits. En remplaçant les couches FFN denses traditionnelles par des couches MOE clairsemées et en utilisant un mécanisme de routage, ces modèles atteignent une évolutivité élevée et des vitesses d'inférence améliorées. Cependant, les compromis comprennent une augmentation des demandes de mémoire, des complexités de formation et le défi de concevoir une stratégie de routage efficace. Alors que la recherche se poursuit, les architectures basées sur le MOE sont susceptibles de jouer un rôle important dans la prochaine génération de modèles d'IA.
Comment OpenSourcing Deepp change la donne et ce qu'il offre?
1. Communication tout à toutes efficace et optimisée
Pour former et déployer efficacement les modèles MOE, la communication transparente entre les nœuds est essentielle - à la fois dans une seule machine (intranode) et sur plusieurs machines (Internode). DeepEP relève ce défi avec une communication très optimisée, assurant un transfert de données rapide et efficace, la minimisation des goulots d'étranglement et la maximisation des performances.
2. Intranode et entre-code Prise en charge avec NVLink et RDMA
Deepp va au-delà de la communication de base, permettant une connectivité intranode et entre-nappe sans couture via des technologies avancées comme NVLink et RDMA (accès à la mémoire directe distante). NvLink, l'interconnexion à grande vitesse de NVIDIA, accélère l'échange de données dans les nœuds, tandis que RDMA minimise la latence dans les transferts de nœuds, garantissant des performances optimales pour les systèmes d'IA à grande échelle. Ces innovations redéfinissent collectivement l'efficacité, faisant de DeepPep une centrale électrique pour les charges de travail d'IA de nouvelle génération.
3. Grains à haut débit pour la formation et le préfills d'inférence
Deepp est conçu pour gérer efficacement les données à grande échelle. Ses grains à grande vitesse permettent une formation rapide en optimisant comment les données se déplacent dans le système. Pendant le préfiltrage d'inférence, ces noyaux traitent rapidement les lots importants, garantissant des performances lisses et efficaces sans goulot d'étranglement.
4. Grains de faible latence pour le décodage d'inférence
En ce qui concerne les prédictions en temps réel, la vitesse est tout. Les noyaux à faible latence de DeepEP minimisent les retards pendant le décodage d'inférence, fournissant des réponses instantanées avec un décalage minimal. Cela le rend idéal pour les applications qui exigent une prise de décision rapide et des expériences d'utilisateurs sans couture.
5. Support de répartition FP8 native
Deepp se démarque avec son support FP8 (point flottant 8) intégré, un format de pointe qui augmente la vitesse et réduit l'utilisation de la mémoire - parfait pour l'échelle des modèles d'IA. En intégrant FP8, Deepseek garantit que la bibliothèque reste en avance sur l'évolution du matériel et des algorithmes d'IA. Cela signifie une formation plus rapide, une baisse des coûts énergétiques et une voie plus efficace vers le développement durable de l'IA.
6. Contrôle des ressources GPU flexible pour la communication de calcul chevauchant
Deepp optimise l'utilisation du GPU en permettant un calcul et un transfert de données simultanés, en minimisant les temps d'arrêt et en maximisant les performances. Idéal pour les projets d'IA à grande échelle, il aide les chercheurs et les entreprises à économiser du temps et des coûts tout en évoluant efficacement.
Essayez Deepp vous-même
Visitez le référentiel GitHub - Trouvez le code source, les documents et les exemples de DeepP sur GitHub pour commencer rapidement.
Explorez la documentation - Apprenez à utiliser les fonctionnalités clés de DeepPE comme NVLink, RDMA et FP8 avec des conseils clairs et étape par étape.
Enfin, vous pouvez tirer parti de n'importe quel outil pour tester et intégrer DeepP.
Conclusion
Deepseek a publié DeepPe le jour 2 de la semaine open source. Cela change la donne pour le mélange d'experts (MOE), la formation et l'inférence du modèle. Deepseek propose une bibliothèque de communication EP open-source haute performance. Il stimule l'efficacité, réduit la latence et améliore la gestion des ressources pour les charges de travail d'IA à grande échelle. DeepEP prend en charge NVLink, RDMA, FP8 et le chevauchement de communication de calcul sans couture. Cela permet aux développeurs et aux chercheurs de faire progresser l'innovation de l'IA. L'engagement open-source de Deepseek accélère les progrès de l'AGI. Il rend les outils d'IA de pointe plus accessibles à l'échelle mondiale.
Restez à l'écoute toanalytics vidhya blog pour notre analyse détaillée sur la version du jour 3 de Deepseek!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

En 2022, il a fondé la startup de défense de l'ingénierie sociale Doppel pour faire exactement cela. Et alors que les cybercriminels exploitent des modèles d'IA de plus en plus avancés pour turbuler leurs attaques, les systèmes d'IA de Doppel ont aidé les entreprises à les combattre à grande échelle - plus rapidement et

Le tour est joué, via l'interaction avec les modèles mondiaux appropriés, l'IA et les LLM génératives peuvent être considérablement stimulées. Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur la dernière IA, y compris

La fête du Travail 2050. Les parcs à travers le pays se remplissent de familles bénéficiant de barbecues traditionnelles tandis que les défilés nostalgiques vont dans les rues de la ville. Pourtant, la célébration porte désormais une qualité de musée - une reconstitution historique plutôt que la commémoration de C


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

Dreamweaver CS6
Outils de développement Web visuel

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.
