Maison >Périphériques technologiques >IA >Microsoft lance un petit modèle d'IA, exécute secrètement le 'Plan B', n'a rien à voir avec OpenAI
Les grands modèles d'IA deviendront un mot-clé en 2023, et c'est également un domaine brûlant de concurrence entre les grandes entreprises technologiques. Cependant, le coût de ce grand modèle d’IA qui symbolise l’avenir est trop élevé, ce qui pousse même des entreprises riches comme Microsoft à commencer à envisager des alternatives. Des révélations récentes montrent que certaines des 1 500 personnes de l’équipe de recherche de Microsoft dirigée par Peter Lee se sont tournées vers le développement d’un nouveau LLM, plus petit et dont les coûts d’exploitation sont inférieurs
À propos du modèle d’IA de petite taille de Microsoft, des indices ont commencé à émerger il y a 3 mois. En juin de cette année, Microsoft a publié un article intitulé « Les manuels sont tout ce dont vous avez besoin », utilisant des données « au niveau des manuels » de seulement 7 milliards de jetons pour former un modèle phi-1 de 1,3 milliard de paramètres, prouvant que même à petite échelle, des données de qualité peuvent également permettre au modèle d'avoir de bonnes performances. En outre, Microsoft Research a également publié un nouveau modèle de langage pré-entraîné appelé phi-1.5 basé sur phi-1, qui convient aux questions et réponses d'assurance qualité, au format de chat et aux scénarios de code
Selon Microsoft, phi-1.5 surpasse un nombre considérable de grands modèles dans le cadre de tests testant le bon sens, la compréhension du langage et le raisonnement logique. Dans la suite de scores de course GPT4AL avec LM-Eval Harness, phi-1,5 est comparable au grand modèle open source lama-2 de Meta avec 7 milliards de paramètres, et dépasse même lama-2 dans le score AGIEval.
Pourquoi Microsoft développe-t-il soudainement des modèles d'IA de petite taille ? On pense généralement que cela peut être lié à des problèmes entre OpenAI. Microsoft est un investisseur majeur dans OpenAI, il peut donc utiliser en permanence la propriété intellectuelle existante d'OpenAI, mais il ne peut pas contrôler la prise de décision d'OpenAI. Il est donc essentiel pour un géant comme Microsoft de développer des modèles d'IA de petite taille et de haute qualité, que ce soit pour ses propres considérations stratégiques de sécurité ou pour maintenir une position favorable en coopération avec OpenAI
Bien entendu, la consommation énergétique actuelle des grands modèles d’IA est un facteur clé. Lors de la Design Automation Conference plus tôt cette année, Mark Papermaster, directeur de la technologie d'AMD, a montré une diapositive comparant la consommation d'énergie des systèmes d'apprentissage automatique à la production mondiale d'énergie. Selon les estimations de l'Agence internationale de l'énergie, les centres de données formant de grands modèles sont de plus en plus énergivores, représentant 1,5 à 2 % de la consommation électrique mondiale, soit l'équivalent de la consommation électrique de l'ensemble du Royaume-Uni. On s'attend à ce que cette proportion atteigne 4% d'ici 2030
Selon un rapport pertinent publié par Digital Information World, la consommation d'énergie générée par les centres de données pour la formation des modèles d'IA sera trois fois supérieure à celle des services cloud conventionnels. D'ici 2028, la consommation électrique des centres de données avoisinera 4 250 mégawatts, soit une augmentation de . 212 fois à partir de 2023. La consommation électrique de la formation OpenAI GPT-3 est de 1,287 gigawattheures, ce qui équivaut approximativement à la consommation électrique de 120 foyers américains pendant un an. Mais il ne s'agit que de la consommation électrique initiale de la formation du modèle d'IA, qui ne représente que 40 % de l'énergie consommée lorsque le modèle est réellement utilisé.
Selon le rapport environnemental 2023 publié par Google, la formation de grands modèles d'IA consommera non seulement beaucoup d'énergie, mais consommera également beaucoup de ressources en eau. Selon le rapport, Google a consommé 5,6 milliards de gallons (environ 21,2 milliards de litres) d'eau en 2022, soit l'équivalent de la consommation d'eau de 37 terrains de golf. Parmi ceux-ci, 5,2 milliards de gallons sont utilisés dans les centres de données de Google, soit une augmentation de 20 % par rapport à 2021
Une consommation d'énergie élevée des grands modèles d'IA est normale. Selon les mots du directeur technique principal d'ARM, Ian Bratt, « les besoins informatiques de l'IA ne peuvent pas être satisfaits. Plus l'échelle du réseau est grande, meilleurs sont les résultats, plus il est possible de résoudre de problèmes et la consommation d'énergie est directement proportionnelle à l'échelle du réseau. "
Certains praticiens de l'intelligence artificielle ont déclaré qu'avant l'épidémie, la consommation d'énergie nécessaire pour entraîner un modèle Transformer était de l'ordre de 27 kilowattheures. Cependant, le nombre de paramètres du modèle Transformer est désormais passé de 50 millions à 200 millions et la consommation d'énergie a dépassé 500 000 kilowattheures. En d’autres termes, le nombre de paramètres a été multiplié par quatre, mais la consommation d’énergie a été multipliée par plus de 18 000. D’une certaine manière, les diverses fonctions innovantes apportées par les modèles d’intelligence artificielle à grande échelle se font en réalité au détriment de performances de traitement et d’une consommation d’énergie élevées
Plus d'électricité entraîne plus de GPU pour l'entraînement de l'IA, et une grande quantité d'eau est consommée pour refroidir les GPU. C'est le problème. À tel point qu’il a été révélé que Microsoft élaborait une feuille de route pour faire fonctionner des centres de données utilisant l’électricité produite par de petits réacteurs nucléaires. De plus, même si l’ESG (« environnemental, social et gouvernance ») n’est pas évoqué, il est intéressant d’étudier les modèles de petite taille uniquement sous l’angle des coûts.
Comme nous le savons tous, NVIDIA, qui a construit l'écosystème CUDA, est le plus grand bénéficiaire de ce cycle de boom de l'IA et a déjà occupé 70 % du marché des puces IA. De nos jours, les cartes informatiques telles que H100 et A100 le sont. difficile à trouver. Mais la situation actuelle est que l’achat de puissance de calcul auprès de NVIDIA est devenu un facteur important qui fait augmenter les coûts des fabricants d’IA. Par conséquent, un modèle de petite taille signifie qu'il nécessite moins de ressources informatiques et qu'il vous suffit d'acheter moins de GPU pour résoudre le problème.
Bien que les modèles à grande échelle les plus puissants soient effectivement excellents, la commercialisation des modèles à grande échelle en est encore à ses balbutiements, et la seule personne qui gagne beaucoup d'argent est le rôle de « vendre des pelles » de NVIDIA. Par conséquent, dans ce cas, Microsoft a naturellement l'intention de changer le statu quo
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!