Maison >Périphériques technologiques >IA >Galaxy AI Network, la réponse à la capacité de transport à l'ère des grands modèles
À mesure que la valeur des grands modèles d'IA pré-entraînés continue d'émerger, l'échelle des modèles devient de plus en plus grande. L'industrie et le monde universitaire sont parvenus à un consensus : à l'ère de l'IA, la puissance de calcul est synonyme de productivité.
Bien que cette compréhension soit correcte, elle n’est pas exhaustive. Les systèmes numériques reposent sur trois piliers : le stockage, l’informatique et la mise en réseau, et il en va de même pour la technologie de l’IA. Si l’on met de côté le stockage et la puissance de calcul du réseau, les grands modèles ne peuvent être autonomes. En particulier, l’infrastructure réseau adaptée aux grands modèles n’a pas reçu une attention particulière.
Face aux grands modèles d'IA qui sont fréquemment « entraînés avec des dizaines de milliers de cartes », « déployés sur des milliers de kilomètres » et « avec des milliards de paramètres », la capacité de transport du réseau est un maillon incontournable dans l'ensemble de l'intelligence artificielle. système. Les défis auxquels elle est confrontée sont très importants et elle attend des réponses susceptibles de briser la situation.
Wang Lei, président de la gamme de produits de communication de données Huawei
Le 20 septembre, un sommet sur les communications de données sur le thème « Galaxy AI Network, Accelerating Industry Intelligence » s'est tenu lors de la conférence Huawei Connect 2023. Des représentants de tous horizons ont discuté des tendances de transformation et de développement de la technologie des réseaux d’IA. Lors de la réunion, Wang Lei, président de la gamme de produits de communication de données de Huawei, a officiellement lancé la solution réseau Galaxy AI. Il a déclaré que les grands modèles rendent l'IA plus intelligente, mais que le coût de la formation d'un grand modèle est très élevé et que le coût des talents en IA doit également être pris en compte. Par conséquent, dans la phase d'intelligentisation de l'industrie, ce n'est qu'en se concentrant sur la création de grands clusters de puissance de calcul et en fournissant des services de cloud computing intelligents à la société que l'intelligence artificielle pourra véritablement pénétrer dans des milliers d'industries. Huawei a lancé une nouvelle génération de solution réseau Galaxy AI Face à l'ère de l'intelligence, elle construit une nouvelle infrastructure réseau avec un débit ultra élevé, une stabilité à long terme, une fiabilité, une élasticité et une concurrence élevée pour aider l'IA à profiter à tous et à accélérer l'intelligence de. l'industrie.
Profitez de cette opportunité pour en savoir plus sur les défis de réseau posés aux centres de données informatiques intelligents par l'essor des grands modèles, et pourquoi le réseau Huawei Galaxy AI est la solution optimale à ces problèmes.
À l'ère de l'IA, un modèle, une donnée et une unité informatique peuvent être considérés comme une lumière d'étoile. Cependant, ce n’est qu’en les connectant ensemble de manière efficace et stable qu’un monde intelligent et brillant pourra être formé
L'éclosion des grands modèles a déclenché un torrent de réseau caché
Nous savons que le modèle d'IA se divise en deux étapes : la formation et le déploiement de l'inférence. Avec la montée en puissance des grands modèles pré-entraînés, d’énormes défis en matière de réseau d’IA se sont également produits au cours de ces deux étapes.
La première est en phase de formation du grand modèle. À mesure que l'échelle du modèle et les paramètres de données deviennent de plus en plus grands, la formation de grands modèles commence à nécessiter des clusters de calcul de kilocalories, voire de 10 000 kilowatts. Cela signifie également que la formation de grands modèles doit avoir lieu dans des centres de données dotés de la puissance de calcul de l'IA.
Au stade actuel, le coût des centres de données informatiques intelligents est très élevé. Selon les données de l'industrie, le coût de construction d'un cluster doté d'une puissance de calcul de 100P atteint 400 millions de yuans. En prenant comme exemple un grand modèle international bien connu, sa dépense quotidienne en puissance de calcul pendant le processus de formation atteint 700 000 dollars américains
Si la capacité de connexion du réseau du centre de données n'est pas fluide, entraînant la perte d'une grande quantité de ressources informatiques lors de la transmission réseau, les pertes pour le centre de données et les modèles d'IA seront incommensurables. Au contraire, si la formation en cluster est plus efficace pour la même échelle de puissance de calcul, les centres de données bénéficieront d’énormes opportunités commerciales. Le taux de charge et d'autres facteurs de réseau déterminent directement l'efficacité de la formation du modèle d'IA. D'un autre côté, à mesure que l'échelle du cluster de puissance de calcul de l'IA continue de croître, sa complexité augmente également en conséquence, de sorte que la probabilité de panne augmente également. Construire un réseau de clusters stable et fiable à long terme est un pivot important pour les centres de données afin d'améliorer leur ratio entrées-sorties
En dehors du centre de données, la valeur des réseaux d'IA peut également être constatée dans les scénarios de raisonnement et de déploiement des modèles d'IA. Le déploiement d'inférence de grands modèles repose principalement sur les services cloud, et les fournisseurs de services cloud doivent essayer de servir des clients plus importants disposant de ressources informatiques limitées afin de maximiser la valeur commerciale des grands modèles. En conséquence, plus il y a d’utilisateurs, plus la structure globale du réseau cloud sera complexe. Comment fournir des services réseau stables et à long terme est devenu un nouveau défi pour les fournisseurs de services de cloud computing.
De plus, dans le dernier kilomètre du déploiement de l'inférence de l'IA, les utilisateurs gouvernementaux et les entreprises sont confrontés à la nécessité d'améliorer la qualité du réseau. Dans des scénarios réels, une perte de paquets de liaison de 1 % entraînera une baisse des performances TCP de 50 fois, ce qui signifie que pour un haut débit de 100 Mbps, la capacité réelle est inférieure à 2 Mbps. Par conséquent, ce n’est qu’en améliorant les capacités réseau du scénario d’application lui-même que nous pourrons garantir le flux fluide de la puissance de calcul de l’IA et réaliser une IA véritablement inclusive.
Il n'est pas difficile de voir à partir de là que dans tout le processus de naissance, de transmission et d'application de grands modèles d'IA, chaque maillon est confronté aux défis et aux besoins des mises à niveau du réseau. Le problème de la capacité de transport à l’ère des grands modèles doit être résolu de toute urgence.
L'idée d'une perturbation des réseaux à l'ère intelligente peut s'étendre de la lumière des étoiles à la galaxie
La montée en puissance des grands modèles a entraîné un problème de réseau multi-liens et à processus complet. Nous devons donc adopter une approche systématique pour relever ce défi
Huawei a proposé une nouvelle infrastructure réseau pour les services cloud informatiques intelligents. L'installation doit prendre en charge les trois capacités de « formation à haute efficacité », de « puissance de calcul continue » et de « services d'IA inclusifs ». Ces trois fonctionnalités couvrent l’ensemble du scénario des grands modèles d’IA, de la formation au déploiement d’inférence. Huawei se concentre non seulement sur la satisfaction d'un seul besoin et sur la mise à niveau d'une seule technologie, mais promeut également de manière globale l'itération des réseaux d'IA, apportant des idées révolutionnaires uniques à l'industrie
Plus précisément, l'infrastructure réseau à l'ère de l'IA doit inclure les capacités suivantes :
Tout d'abord, le réseau doit maximiser la valeur du cluster informatique IA dans le scénario de formation. En construisant un réseau doté de capacités de connexion à très grande échelle, une formation à haute efficacité de grands modèles d'IA est obtenue.
Deuxièmement, afin d'assurer la stabilité et la durabilité des tâches d'IA, il est nécessaire de construire des capacités de réseau fiables et à long terme pour garantir que l'entraînement mensuel ne soit pas interrompu en même temps, une délimitation, un positionnement et une récupération stables. le deuxième niveau est nécessaire pour minimiser les interruptions de formation. Il s’agit du renforcement continu des capacités de calcul.
Encore une fois, lors du processus de déploiement de l'inférence de l'IA, le réseau doit avoir des caractéristiques de concurrence élastiques et élevées, qui peuvent orchestrer intelligemment des flux d'utilisateurs massifs et fournir la meilleure expérience d'atterrissage de l'IA. Il peut également résister à l'impact du réseau. dégradation et assurer une puissance de calcul d'IA fluide entre les différentes régions mobiles, cela réalise également le renforcement des capacités des « services d'IA inclusifs ».
Huawei a finalement lancé la solution réseau Galaxy AI, adhérant à cette idée révolutionnaire. Cette solution intègre des technologies d'IA dispersées et forme un réseau de type galaxie grâce à de puissantes capacités informatiques
Galaxy AI Network apporte une réponse de capacité à l'ère du grand modèle
Lors de la Huawei Full Connectivity Conference 2023, Huawei a partagé sa vision de développement visant à accélérer la création de grands modèles d'IA dotés d'une grande puissance de calcul, d'une grande capacité de stockage et d'une grande capacité de transport. La nouvelle génération de solution réseau Galaxy AI de Huawei peut être considérée comme la solution de Huawei pour une capacité de transport à grande échelle à l'ère de l'intelligence.
Pour les centres de données intelligents, Huawei Galaxy AI Network est la solution optimale basée sur la puissance du réseau.
Ses caractéristiques de réseau à très haut débit peuvent apporter une valeur importante pour améliorer le taux de charge du réseau et améliorer l'efficacité de la formation des clusters d'IA dans les centres informatiques intelligents. Plus précisément, les commutateurs informatiques intelligents du réseau Galaxy AI disposent des capacités de ports 400GE et 800GE les plus denses du secteur. Seul un réseau de commutation de couche 2 peut réaliser un réseau de cluster sans convergence de 18 000 cartes, prenant ainsi en charge la formation de grands modèles avec plus d'un billion de paramètres. Une fois les niveaux de mise en réseau réduits, cela signifie que le centre de données peut économiser beaucoup de coûts de modules optiques, tout en améliorant la prévisibilité des risques réseau et en obtenant des capacités de formation de grands modèles plus stables.
Le réseau Galaxy AI peut prendre en charge l'équilibrage de charge NSLB au niveau du réseau, augmentant le taux de charge de 50 % à 98 %, ce qui équivaut à réaliser une opération d'overclocking du cluster AI, augmentant ainsi l'efficacité de la formation de 20 %, répondant ainsi aux attentes d'une formation efficace
Pour les fabricants de services cloud, Galaxy AI Network peut fournir une garantie de puissance de calcul stable et fiable.
Dans les scénarios d'interconnexion de salles informatiques DCI, cette technologie peut fournir des fonctions telles que la planification intelligente multi-chemins, identifier automatiquement et s'adapter de manière proactive à l'impact du trafic professionnel de pointe. Il peut identifier les flux grands et petits parmi des millions de flux de données et les allouer raisonnablement à 100 000 chemins pour atteindre une congestion nulle dans le réseau et fournir une garantie élastique pour les services cloud informatiques intelligents à haute concurrence
Pour les utilisateurs gouvernementaux et professionnels, le réseau Galaxy AI peut faire face aux problèmes de dégradation du réseau et garantir une puissance de calcul universelle de l'IA.
Il peut prendre en charge des capacités anti-dégradation élastiques dans les scénarios de calcul DCA et utilise la technologie Fillp pour optimiser le protocole TCP, ce qui peut augmenter le taux de charge de la bande passante de 10 % à 60 % dans des conditions de taux de perte de paquets de 1 %, garantissant ainsi que des zones urbaines aux zones reculées La puissance de calcul dans la région circule de manière fluide, accélérant l'application inclusive des services d'IA.
De cette façon, les exigences réseau de tous les aspects des grands modèles, de la formation au déploiement, sont résolues. Des centres informatiques intelligents à des milliers d’industries, il existe un point d’appui pour le développement de l’informatique en réseau.
À l'ère de l'intelligence, une nouvelle ère technologique ouverte par les grands modèles vient de commencer. Galaxy AI Network apporte la réponse à la capacité de transport à l’ère intelligente
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!