Maison > Article > Périphériques technologiques > La bibliothèque d'extension de formation distribuée open source d'Ant, AToch, atteint un taux d'utilisation effectif de 60 % de la puissance de calcul de formation sur grands modèles.
Ant Group a récemment annoncé le lancement d'une bibliothèque d'extension d'accélération de formation distribuée à grande échelle appelée ATorch, qui est un outil open source. L'objectif d'ATorch est d'aider à améliorer l'intelligence de l'apprentissage profond grâce à l'optimisation dynamique automatique des ressources et à l'amélioration de la stabilité de la formation distribuée. Il est entendu que dans l'entraînement sur grand modèle, AToch peut augmenter le taux d'utilisation de la puissance de calcul d'un modèle d'entraînement de 100 milliards de kilocalories à 60 %, ce qui équivaut à l'ajout d'un moteur puissant à une voiture de sport. Il s’agira d’un outil important pour les chercheurs et les développeurs en apprentissage profond afin de les aider à former et à optimiser plus efficacement les grands modèles.
Avec l'explosion des grands modèles génératifs, l'échelle des ensembles de données et des paramètres pour la formation de modèles a augmenté de façon exponentielle. Afin de répondre aux besoins de formation de ce mastodonte et d’itérer rapidement le modèle, la formation distribuée est devenue l’une des solutions. Dans ce domaine, les frameworks d'apprentissage profond tels que PyTorch et TensorFlow sont largement adoptés pour la construction et la formation de modèles. Afin de mieux s'adapter à la formation de grands modèles, un certain nombre d'efforts ont été menés dans l'industrie, dont la boîte à outils open source ATorch d'Ant. ATorch fournit des cadres d'apprentissage en profondeur tels que PyTorch avec des fonctions et des outils plus adaptés à la formation de grands modèles, aidant ainsi les développeurs et les chercheurs à accomplir les tâches de formation de modèles plus efficacement. L'open source de cette boîte à outils favorisera davantage le développement de formations sur de grands modèles et apportera davantage d'opportunités et de défis aux domaines de recherche et d'application.
Il est entendu qu'ATorch adopte une conception d'architecture en couches avec des fonctions claires et une conception complète, qui peut fournir aux développeurs une expérience de développement extrêmement rationalisée et une garantie de stabilité de premier plan. Il comprend principalement des fonctions de base telles qu'une interface de configuration de stratégie d'optimisation distribuée unifiée, une recherche automatique de stratégie distribuée, une tolérance élastique automatique aux pannes, une bibliothèque de gestion de mémoire dynamique efficace et une convergence accélérée d'optimiseur auto-développé. En tant que bibliothèque d'accélération étendue hautes performances du framework PyTorch, ATorch peut minimiser l'intrusion du code utilisateur et fournir une solution hautes performances facile à utiliser pour la formation au niveau kilo-carte de grands modèles avec des centaines de milliards de paramètres.
Récemment, ATorch a obtenu d'excellents résultats dans la pratique de l'optimisation de la formation de grands modèles ciblant les modèles open source. Par exemple, il a réussi à augmenter le taux d'utilisation de la puissance de calcul en kilocalories avant l'entraînement du grand modèle open source GLM-65b de l'Université Tsinghua de 28,8 % à 62 %, et a augmenté le taux d'utilisation de la puissance de calcul avant l'entraînement du grand modèle LLama2-70b. développé par Meta de 28,8 % à 62 %, 42 % est passé à 60 %, et le taux d'utilisation de la puissance de calcul de formation de Stable Diffusion, un grand modèle multimodal développé par la société britannique d'IA Stability AI, est passé de 21,8 % à 58,7 %. . De plus, ATorch a obtenu de bons résultats en termes de stabilité d'entraînement en kilocalories. Le temps d'entraînement quotidien moyen pur a augmenté à 95 %, le temps de sauvegarde du ckpt est contrôlé en 1 minute et le temps de redémarrage de l'entraînement ne prend que 5 minutes au plus rapide, atteignant atteint le niveau de pointe de l'industrie.
Actuellement, ATorch a été intégré au produit open source DLRover d'Ant Group, qui est un système d'apprentissage profond distribué intelligent construit sur la technologie cloud native. L'ajout d'ATorch permet aux grands développeurs de modèles de se concentrer davantage sur la conception de l'architecture du modèle sans avoir à s'occuper de détails d'ingénierie fastidieux, améliorant ainsi l'efficacité et l'intelligence de la formation.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!