Maison >Périphériques technologiques >IA >L'intelligence artificielle oblige les centres de données à repenser leur conception
Avec l'application à grande échelle de l'intelligence artificielle dans les entreprises, l'une des conséquences est qu'elle consomme une plus grande proportion de la charge de travail dans les centres de données.
L'IA non seulement accélérera la demande de centres de données et créera de nouvelles incitations à l'investissement, mais elle aura également un impact sur les stratégies de durabilité des centres de données et sur la nature de l'infrastructure à déployer.
Par exemple, Tirias Research prédit que, dans l’état actuel des choses, l’infrastructure des serveurs de centres de données à IA générative et les coûts d’exploitation dépasseront 76 millions de dollars d’ici 2028, soit plus du double des coûts d’exploitation annuels actuels estimés d’Amazon AWS, représentant un tiers du coût mondial. marché des services cloud.
Les performances de calcul du matériel devraient augmenter de 400 %, éclipsant ainsi l'augmentation estimée par Tirias de 50 fois dans les charges de travail de traitement
Grands clusters de formation et petite inférence de bord, selon un nouveau livre blanc de Schneider Electric La croissance explosive des serveurs cela signifiera également un passage à une densité de puissance de rack plus élevée.
Le livre blanc indique : « Les startups d'IA, les entreprises, les fournisseurs de colocation et les géants de l'Internet doivent désormais considérer l'impact de ces densités sur la conception et la gestion de l'infrastructure physique des centres de données.
Le Schneider Energy Management Research Center sur l'impact de l'artificiel. » intelligence sur L'impact sur la demande d'énergie est prévu. Selon les estimations, l'IA représente actuellement 4,3 GW de demande d'énergie et devrait croître à un TCAC de 26 % à 36 % d'ici 2028
Cela conduira à une demande totale de 13,5 GW à 20 GW, soit la puissance globale du centre de données. demande Une croissance deux à trois fois supérieure. D'ici 2028, les charges de travail d'IA représenteront 20 % de l'énergie totale des centres de données
Schneider a noté que même si elles devraient consommer plus d'énergie que les clusters de formation, les charges de travail d'inférence peuvent s'exécuter à différentes densités de rack.
« Les charges de travail de formation en IA, en revanche, fonctionnent à des densités très élevées, avec 20 à 100 kW ou plus par rack.
Les demandes et les coûts du réseau sont ce qui pousse ces racks de formation à être regroupés. être ensemble. Ces clusters à haute densité énergétique posent des défis fondamentaux à la conception de l'alimentation, du refroidissement, des racks et de la gestion des logiciels des centres de données
Schneider décrit quatre domaines clés qui peuvent avoir un impact : l'alimentation, le refroidissement, la gestion des racks et des logiciels
Dans le secteur de l'énergie, les charges de travail de l'IA posent des défis aux systèmes d'alimentation dans les systèmes de commutation et de distribution.
Certaines tensions actuellement utilisées s'avéreront peu pratiques à déployer, tandis que des blocs de distribution de plus petite taille pourraient gaspiller de l'espace informatique. Des températures de rack plus élevées augmentent également les risques de panne et les dangers. Ce qui a été réécrit : certaines des tensions actuellement utilisées peuvent s'avérer peu pratiques une fois déployées, tandis que des blocs de distribution d'énergie de plus petite taille peuvent gaspiller de l'espace informatique. Dans le même temps, des températures de rack plus élevées augmentent également la probabilité de pannes et de dangers.
À mesure que les centres de données passent au refroidissement liquide, le refroidissement sera critique et l'un des domaines qui nécessiteront des changements importants, avec plus de la moitié du refroidissement liquide ayant été utilisé. dans le calcul professionnel haute performance depuis des siècles.
Schneider a déclaré : « Même si le refroidissement par air existera encore dans un avenir proche, il est prévu que la transition du refroidissement par air au refroidissement liquide deviendra la solution privilégiée ou nécessaire pour les centres de données dotés de clusters d'intelligence artificielle. » Reformulé : selon Schneider, même s'il y aura encore du refroidissement par air dans un avenir proche, les prévisions indiquent que le passage du refroidissement par air au refroidissement liquide deviendra la solution privilégiée ou nécessaire pour les centres de données dotés de clusters d'IA
vs air Le refroidissement liquide a de nombreux avantages par rapport au refroidissement. Premièrement, le refroidissement liquide améliore la fiabilité et les performances du processeur. Deuxièmement, le refroidissement liquide permet d'économiser de l'espace et d'augmenter la densité des racks. De plus, l'eau contenue dans le refroidissement liquide a une plus grande inertie thermique et peut réduire la consommation d'eau
Pour les clusters d'intelligence artificielle, les serveurs doivent être plus profonds, les besoins en énergie sont plus importants et le refroidissement est plus complexe.
Pour répondre à la demande, les racks doivent avoir une densité et une capacité de charge plus élevées
À terme, les outils logiciels tels que DCIM, BMS et les outils de conception électrique seront essentiels à la gestion des clusters d'IA
Avec une configuration et une mise en œuvre appropriées qui permet au jumeau numérique d'un centre de données d'identifier les contraintes d'alimentation et les performances des ressources de refroidissement et de fournir des informations pertinentes pour des décisions d'aménagement optimales
Dans un environnement de plus en plus dynamique, plus la marge d'erreur est faible, plus le risque opérationnel est élevé. Schneider recommande donc de créer un jumeau numérique de l'ensemble de l'espace informatique, y compris les équipements en racks et les machines virtuelles.
En ajoutant ou en déplaçant numériquement des charges informatiques, vous pouvez vérifier qu'il y a suffisamment d'énergie, de refroidissement et de capacité de charge au sol pour les prendre en charge. Cela éclaire les décisions visant à éviter les ressources bloquées et à minimiser les erreurs humaines pouvant entraîner des temps d'arrêt
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!