Maison > Article > Périphériques technologiques > IBM développe le supercalculateur d'IA cloud natif Vela pour déployer et former de manière flexible des dizaines de milliards de modèles de paramètres
ChatGPT est populaire sur Internet et la formation sur le modèle d'IA qui la sous-tend a également attiré une large attention. IBM Research a récemment annoncé que le supercalculateur cloud natif Vela qu'il a développé pouvait être rapidement déployé et utilisé pour former des modèles d'IA de base. Depuis mai 2022, des dizaines de chercheurs de l’entreprise utilisent ce supercalculateur pour entraîner des modèles d’IA comportant des dizaines de milliards de paramètres.
Les modèles de base sont des modèles d'IA entraînés sur de grandes quantités de données non étiquetées, et leur polyvalence signifie qu'ils peuvent être utilisés pour une gamme de tâches différentes avec juste un réglage fin. Leur ampleur est énorme et nécessite une puissance de calcul massive et coûteuse. Par conséquent, comme le disent les experts, la puissance de calcul deviendra le plus gros goulot d'étranglement dans le développement de la prochaine génération de modèles de base à grande échelle, et leur formation nécessitera beaucoup de puissance de calcul et de temps.
Les modèles de formation capables d'exécuter des dizaines ou des centaines de milliards de paramètres nécessitent l'utilisation de matériel informatique haute performance, notamment des réseaux, des systèmes de fichiers parallèles et des nœuds nus. Ce matériel est difficile à déployer et coûteux à exploiter. Microsoft a construit un supercalculateur IA pour OpenAI en mai 2020 et l'a hébergé sur la plateforme cloud Azure. Mais IBM affirme qu'ils sont pilotés par le matériel, ce qui augmente les coûts et limite la flexibilité.
Cloud AI Supercomputer
IBM a donc créé un système appelé Vela qui est « spécifiquement axé sur l'IA à grande échelle ».
Vela peut être déployée dans n'importe quel centre de données cloud d'IBM selon les besoins, et il s'agit en soi d'un « cloud virtuel ». Même si cette approche réduit la puissance de calcul par rapport à la construction de supercalculateurs basés sur la physique, elle crée une solution plus flexible. Les solutions de cloud computing fournissent aux ingénieurs des ressources via des interfaces API, un accès plus facile au vaste écosystème cloud IBM pour une intégration plus approfondie et la possibilité d'adapter les performances selon les besoins.
Les ingénieurs IBM ont expliqué que Vela est capable d'accéder aux ensembles de données sur IBM Cloud Object Storage au lieu de créer un backend de stockage personnalisé. Auparavant, cette infrastructure devait être intégrée séparément aux supercalculateurs.
Le composant clé de tout supercalculateur IA est un grand nombre de GPU et les nœuds qui les connectent. Vela configure en fait chaque nœud comme une machine virtuelle (plutôt que comme du bare metal). Il s'agit de la méthode la plus courante et est largement considérée comme la méthode la plus idéale pour la formation en IA.
Comment Vela est-elle construite ?
L'un des inconvénients des ordinateurs virtuels cloud est que les performances ne peuvent être garanties. Pour remédier à la dégradation des performances et offrir des performances sans système d'exploitation au sein des machines virtuelles, les ingénieurs IBM ont trouvé un moyen de libérer les performances de l'ensemble des nœuds (y compris le GPU, le CPU, le réseau et le stockage) et de réduire les pertes de charge à moins de 5 %.
Cela implique la configuration d'un hôte nu pour la virtualisation, la prise en charge de la mise à l'échelle des VM, la virtualisation de grandes pages et d'E/S à racine unique, ainsi qu'une représentation réaliste de tous les périphériques et connexions au sein de la VM, qui comprend également la correspondance des cartes réseau avec les CPU et les GPU, ainsi que leur mode d'emploi ; se pontent. Après avoir terminé ce travail, ils ont constaté que les performances des nœuds VM étaient « proches du bare metal ».
De plus, ils s'engagent également à concevoir des nœuds d'IA dotés d'une grande mémoire GPU et de grandes quantités de stockage local pour la mise en cache des données, des modèles et des produits finis d'entraînement de l'IA. Lors de tests utilisant PyTorch, ils ont constaté qu'en optimisant les modèles de communication de la charge de travail, ils étaient également capables de combler le goulot d'étranglement des réseaux Ethernet relativement lents par rapport aux réseaux plus rapides comme Infiniband utilisé dans le calcul intensif.
En termes de configuration, chaque Vela utilise huit GPU A100 de 80 Go, deux processeurs évolutifs Intel Xeon de deuxième génération, 1,5 To de mémoire et quatre disques durs NVMe de 3,2 To, et peut être déployé sur IBM à n'importe quelle échelle. à travers le monde.
Les ingénieurs d'IBM ont déclaré : « Disposer des outils et de l'infrastructure appropriés est un facteur clé pour améliorer l'efficacité de la R&D. De nombreuses équipes choisissent de suivre la voie éprouvée de la construction de superordinateurs traditionnels pour l'IA... Nous travaillons toujours à une meilleure solution, pour offrir le double avantage du calcul haute performance et de la productivité utilisateur haut de gamme »
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!