Maison >Périphériques technologiques >IA >Microsoft a révélé avoir dépensé des centaines de millions de dollars pour assembler un supercalculateur permettant à OpenAI de développer ChatGPT, en utilisant des dizaines de milliers de puces Nvidia.
News Lundi 14 mars, heure locale des États-Unis, Microsoft a publié un document révélant qu'il a dépensé des centaines de millions de dollars pour aider OpenAI à assembler un supercalculateur d'IA pour aider à développer le populaire robot de chat ChatGPT. Ce supercalculateur utilise des dizaines de milliers de puces graphiques NVIDIA A100, ce qui permet à OpenAI de former des modèles d'IA de plus en plus puissants.
OpenAI tente de former des modèles d'IA de plus en plus grands, qui absorbent plus de données et apprennent de plus en plus de paramètres, qui sont les variables que le système d'IA identifie grâce à la formation et au recyclage. Cela signifie qu’il faudra beaucoup de temps à OpenAI pour bénéficier d’un solide support de service de cloud computing.
Pour relever ce défi, lorsque Microsoft a investi 1 milliard de dollars dans OpenAI en 2019, la société a accepté d'assembler un supercalculateur massif et de pointe pour la startup de recherche en IA. Le problème est que Microsoft n'a rien dont OpenAI a besoin et n'est pas entièrement sûr de pouvoir construire un appareil aussi massif sans perturber son service cloud Azure.
Pour ce faire, Microsoft a dû trouver des moyens de connecter des dizaines de milliers de puces graphiques A100 de Nvidia et modifier la façon dont les serveurs sont placés sur les racks pour éviter les pannes de courant. La puce graphique A100 est la bête de somme pour la formation des modèles d’IA. Scott Guthrie, vice-président exécutif de Microsoft pour le cloud computing et l'IA, n'a pas divulgué le coût précis du projet, mais a suggéré qu'il pourrait s'élever à plusieurs centaines de millions de dollars.
Nidhi Cappell, directeur général de Microsoft Azure AI Infrastructure, a déclaré : « Nous avons construit une architecture système qui peut fonctionner à très grande échelle et qui est très fiable, ce qui est une raison importante du succès de ChatGPT. modèle que nous en avons dérivé, et il y aura de nombreux autres modèles.
Basé sur cette technologie, OpenAI a publié le chatbot populaire ChatGPT. Quelques jours après son lancement en novembre dernier, il a attiré plus d'un million d'utilisateurs et est désormais intégré aux modèles commerciaux d'autres entreprises. À mesure que l'intérêt des entreprises et des consommateurs pour les outils d'intelligence artificielle générative (AIGC) tels que ChatGPT augmente, les fournisseurs de services cloud tels que Microsoft, Amazon et Google seront confrontés à une pression accrue pour garantir que leurs centres de données peuvent fournir toute la puissance de calcul requise.
Entre-temps, Microsoft commence également à utiliser l'infrastructure qu'il a construite pour OpenAI pour former et exécuter ses propres modèles d'IA à grande échelle, y compris le nouveau chatbot de recherche Bing lancé le mois dernier. L'entreprise vend également le système à d'autres clients. Le géant du logiciel travaille déjà sur la prochaine génération de superordinateurs IA dans le cadre du partenariat élargi de Microsoft avec OpenAI, un accord dans lequel Microsoft a ajouté 10 milliards de dollars à son investissement.
Guthrie a déclaré dans une interview : « Nous n'avons rien personnalisé pour OpenAI, même s'il a été personnalisé au départ, mais nous l'avons toujours construit de manière généralisée afin que quiconque souhaitait former un grand modèle de langage puisse en profiter. " La même technologie améliorée. Cela nous aide vraiment à devenir un meilleur cloud intelligent d'IA à une plus grande échelle. "
La formation de modèles d'IA à grande échelle nécessite de nombreuses unités de traitement de graphiques interconnectées quelque part, comme le supercalculateur d'IA assemblé par Microsoft. Une fois le modèle utilisé, répondre à toutes les questions posées par les requêtes des utilisateurs (un processus appelé inférence) nécessite une configuration légèrement différente. À cette fin, Microsoft déploie également des puces graphiques à des fins d'inférence, mais ces processeurs (des milliers) sont géographiquement dispersés dans les plus de 60 centres de données de l'entreprise. Microsoft a déclaré qu'il ajoutait désormais la dernière puce graphique Nvidia H100 pour les charges de travail d'IA et la dernière version de la technologie réseau Infiniband pour partager des données plus rapidement.
Le nouveau Bing est encore en phase de test et Microsoft ajoute progressivement d'autres utilisateurs à partir de la liste de test. L'équipe de Guthrie tient des réunions quotidiennes avec environ 20 employés, qu'il appelle « l'équipe des stands », faisant à l'origine référence aux mécaniciens de l'équipe de maintenance de l'équipe en course. Le travail de ces personnes consiste à trouver comment mettre rapidement plus de puissance de calcul en ligne et résoudre les problèmes qui surviennent.
Les services cloud reposent sur des milliers de composants différents, notamment des serveurs, des tuyaux, du béton de construction, différents métaux et minéraux, et les retards ou les pénuries dans l'un des composants, aussi mineurs soient-ils, peuvent perturber l'ensemble du projet. Récemment, « l'équipe du stand » a dû remédier à une pénurie de chemins de câbles, ces dispositifs en forme de panier qui maintiennent les câbles sur les machines. Ils ont donc conçu un nouveau chemin de câbles. Guthrie a déclaré qu'ils travaillaient également sur la façon d'intégrer autant de serveurs que possible dans les centres de données existants à travers le monde afin de ne pas avoir à attendre que de nouveaux bâtiments soient terminés.
Lorsque OpenAI ou Microsoft commencent à entraîner de grands modèles d'IA, le travail doit être effectué en une seule fois. Le travail est distribué à tous les GPU, et à un moment donné, ces GPU ont besoin de communiquer entre eux pour partager le travail qu'ils effectuent. Pour les supercalculateurs IA, Microsoft doit s’assurer que l’équipement réseau qui gère la communication entre toutes les puces peut gérer cette charge, et doit développer un logiciel qui maximise l’utilisation des GPU et des équipements réseau. La société a désormais développé un logiciel qui peut être utilisé pour entraîner des modèles d’IA avec des dizaines de milliards de paramètres.
Étant donné que toutes les machines démarrent en même temps, Microsoft doit réfléchir à l'endroit où les placer et à l'endroit où l'alimentation doit être placée. Dans le cas contraire, le centre de données pourrait éventuellement perdre du courant. Microsoft doit également s'assurer qu'il peut refroidir toutes ces machines et puces, a déclaré Alistair Speirs, directeur de l'infrastructure mondiale chez Azure. La société utilise l'évaporation dans les climats plus froids ; marais plus frais dans les climats chauds.
Guthrie a déclaré que Microsoft continuera à travailler sur des conceptions personnalisées de serveurs et de puces, ainsi que sur des moyens d'optimiser la chaîne d'approvisionnement pour maximiser la vitesse, l'efficacité et les économies de coûts. Il a déclaré : « Les modèles d'IA qui étonnent le monde aujourd'hui sont construits sur le supercalculateur que nous avons commencé à construire il y a plusieurs années, et le nouveau modèle utilisera le nouveau supercalculateur que nous formons actuellement. Cet ordinateur est beaucoup plus grand et peut réaliser de plus grandes performances. Technologie complexe."
Microsoft s'efforce déjà de rendre les capacités d'IA d'Azure plus puissantes, en lançant de nouvelles machines virtuelles qui utilisent les GPU Tensor Core H100 et A100 de Nvidia et le réseau Quantum-2 InfiniBand. Microsoft affirme que cela permettra à OpenAI et à d'autres entreprises qui s'appuient sur Azure de former des modèles d'IA plus grands et plus complexes.
Eric Boyd, vice-président d'entreprise d'Azure AI chez Microsoft, a déclaré dans un communiqué : « Nous avons constaté que nous devions créer des clusters spécialisés axés sur le soutien aux efforts de formation à haut volume, et OpenAI était au début. Nous travaillons en étroite collaboration avec eux pour comprendre les conditions clés dont ils ont besoin pour mettre en place un environnement de formation et d'autres choses dont ils ont besoin » (Xiao Xiao)
.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!