Maison >Périphériques technologiques >IA >Technologie Ant Group NextEvo entièrement open source AI Infra pour permettre la formation de grands modèles à la « conduite autonome »

Technologie Ant Group NextEvo entièrement open source AI Infra pour permettre la formation de grands modèles à la « conduite autonome »

王林avant: 2024-02-02 08:39:021223parcourir

Récemment, NextEvo, le département R&D d'innovation en IA d'Ant Group, a annoncé la technologie open source complète AI Infra, qui peut considérablement améliorer l'efficacité de la formation de modèles à grande échelle. Selon les données, cette technologie peut augmenter la proportion effective du temps de formation à plus de 95 % et réaliser l'automatisation du processus de formation. Ces progrès révolutionnaires ont considérablement favorisé l’efficacité de la recherche et du développement en IA.

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

Photo : DLRover, le système d'apprentissage en profondeur distribué automatisé d'Ant Group, est désormais entièrement open source

DLRover est un cadre technique conçu pour la formation distribuée à grande échelle. Aujourd’hui, dans de nombreuses entreprises, les tâches de formation sont souvent exécutées dans des clusters de déploiement hybrides complexes et variés. Quelle que soit la complexité de l'environnement, DLRover peut le gérer avec facilité, tout comme conduire sur un terrain accidenté.

Le développement rapide de la technologie des grands modèles en 2023 a donné lieu à une croissance explosive de la pratique de l'ingénierie. Comment gérer efficacement les données, optimiser l’efficacité de la formation et de l’inférence et utiliser pleinement la puissance de calcul existante est devenu une question clé.

Pour compléter un grand modèle avec un niveau de paramètres de 100 milliards, tel que GPT-3, il faudrait 32 ans pour s'entraîner une fois avec une seule carte. Il est donc très important d’utiliser pleinement la puissance de calcul pendant le processus de formation. Pour atteindre cet objectif, deux approches peuvent être adoptées. Premièrement, les performances d’un GPU acheté peuvent être encore améliorées pour atteindre son plein potentiel. Deuxièmement, des ressources informatiques auparavant indisponibles telles que le processeur et la mémoire peuvent être utilisées. Pour y parvenir, ce problème peut être résolu grâce à des plateformes informatiques hétérogènes.

DLRover a récemment intégré la solution Flash Checkpoint (FCP) pour la gestion des points de contrôle lors de la formation des modèles. La méthode traditionnelle de gestion des points de contrôle présente des problèmes tels qu'une longue consommation de temps, des points de contrôle à haute fréquence réduisant le temps de formation disponible et une perte excessive lors de la récupération des points de contrôle à basse fréquence. En appliquant la nouvelle solution FCP, après la formation du modèle de 100 milliards de paramètres, le temps de formation perdu causé par Checkpoint est réduit d'environ 5 fois et le temps de persistance est réduit d'environ 70 fois. Cette amélioration augmente le temps d'entraînement effectif de 90 % à 95 %. Cela signifie que l'efficacité de la formation des modèles de DLRover a été considérablement améliorée.

Nous avons également intégré trois nouvelles technologies d'optimisation. L'optimiseur est un composant essentiel de l'apprentissage automatique et est utilisé pour mettre à jour les paramètres du réseau neuronal afin de minimiser la fonction de perte. Parmi eux, l'optimiseur AGD (Auto-switchable optimiseur avec différence de gradient des étapes adjacentes) d'Ant est 1,5 fois plus rapide que la technologie AdamW traditionnelle dans les tâches de pré-entraînement de grands modèles. AGD a été utilisé dans plusieurs scénarios chez les fourmis et a obtenu des résultats remarquables, et des articles connexes ont été inclus dans NeurIPS '23.

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

Photo : Dans les tâches de pré-entraînement de grands modèles, AGD peut accélérer 1,5 fois par rapport à AdamW

En tant que système d'apprentissage profond distribué automatisé, le module de fonction « conduite autonome » de DLRover comprend également : Atorch, un Le PyTorch La bibliothèque d'extension de formation distribuée peut atteindre un taux d'utilisation de la puissance de calcul de 60 % pour la formation au niveau de kilocalories de centaines de milliards de modèles de paramètres, aidant ainsi les développeurs à réduire davantage la puissance de calcul du matériel.

DLRover utilise le concept de « ML for System » pour améliorer l'intelligence de la formation distribuée. Il vise à utiliser un système pour permettre aux développeurs de s'affranchir complètement des contraintes d'allocation des ressources et de se concentrer sur la formation du modèle lui-même. Sans aucune entrée de configuration des ressources, DLRover peut toujours fournir une configuration optimale des ressources pour chaque tâche de formation.

Il est entendu qu'Ant Group continue d'investir dans la technologie dans le domaine de l'intelligence artificielle. Récemment, Ant Group a créé un département interne de recherche et développement d'innovation en IA, NextEvo, qui est responsable de toutes les recherches et développements technologiques de base d'Ant AI, y compris tous les travaux de recherche et développement du grand modèle Bailing, impliquant des technologies de base telles que les algorithmes d'IA, l'ingénierie de l'IA, la PNL et l'AIGC, ainsi que la recherche et le développement technologique et l'innovation de produits dans des domaines tels que la disposition des grands modèles multimodaux et les humains numériques.

Dans le même temps, Ant Group a également accéléré le rythme de l'open source, comblé les lacunes technologiques nationales pertinentes et favorisé le développement rapide de l'industrie de l'intelligence artificielle.

Adresse open source DLRover : https://www.php.cn/link/cf372cbe6eae54c6a6dfb3ebbcdc3404

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

分布式 for auto github 算法人工智能 pytorch nlp https 自动化 AIGC gpt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Le paradigme de l’intelligence artificielle passe d’un modèle centré à un modèle centré sur les donnéesArticle suivant：Le paradigme de l’intelligence artificielle passe d’un modèle centré à un modèle centré sur les données

Articles Liés

Voir plus