Maison  >  Article  >  Périphériques technologiques  >  Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

PHPz
PHPzavant
2023-05-11 13:46:061443parcourir

Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

ChatGPT, AIGC, grand modèle… Une série de termes fulgurants ont émergé, et la valeur commerciale de l'IA a attiré une grande attention de la société. À mesure que l’échelle des modèles de formation augmente, le réseau du centre de données qui prend en charge la puissance de calcul de l’IA est également devenu un sujet brûlant. Améliorer l'efficacité de la puissance de calcul et construire des réseaux hautes performances... Les grands fabricants montrent leurs talents et travaillent dur pour ouvrir une « nouvelle piste F1 » pour les réseaux d'IA dans l'industrie Ethernet.

Dans cette course aux armements en matière d'IA, DDC a fait une apparition remarquée et est devenu du jour au lendemain synonyme de technologie révolutionnaire pour la construction de réseaux d'IA hautes performances. Mais est-ce vraiment aussi beau qu’il y paraît ? Analysons en détail et jugeons sereinement.

Lancé en 2019, l'essence de DDC est de remplacer les routeurs de trame par des routeurs de boîte

Avec la croissance rapide du trafic DCN, le besoin de mises à niveau du réseau DCI est de plus en plus urgent. Cependant, la capacité d'extension de l'équipement de châssis de routeur DCI est limitée par la taille du châssis ; en même temps, l'équipement consomme beaucoup d'énergie lors de l'extension du châssis, les exigences en matière de puissance de l'armoire et de dissipation thermique sont élevées, ainsi que le coût de transformation. est élevé. Dans ce contexte, AT&T a soumis en 2019 à OCP des spécifications de routeurs box basées sur des puces commerciales et a proposé le concept de DDC (Disaggregated Distributed Chassis). Pour faire simple, DDC utilise un cluster composé de plusieurs appareils en boîte de faible consommation pour remplacer les unités matérielles telles que les cartes de ligne de service et les cartes réseau des appareils modulaires. Les appareils en boîte sont interconnectés via des câbles. L'ensemble du cluster est géré via un NOS (système d'exploitation réseau) centralisé ou distribué afin de surmonter les goulots d'étranglement en termes de performances et de consommation d'énergie des équipements DCI mono-frame.

Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

Les avantages revendiqués par DDC incluent :

Briser les limites d'expansion des équipements de type châssis : l'expansion de la capacité est obtenue grâce à des clusters multi-appareils sans être limitée par la taille du châssis

Réduction du point unique ; consommation d'énergie : plusieurs unités de faible consommation. Le déploiement distribué d'équipements de type boîtier à forte consommation résout le problème de la consommation d'énergie concentrée et réduit les besoins en énergie de l'armoire et en dissipation thermique

Amélioration de l'utilisation de la bande passante : par rapport au traditionnel ; Réseau ETH Hash Exchange, DDC utilise la commutation de cellules (Cell ), l'équilibrage de charge basé sur Cell, contribue à améliorer l'utilisation de la bande passante

Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

atténue la perte de paquets : utilisez la grande capacité de cache de l'appareil pour répondre aux exigences élevées ; exigences de taux de convergence des scénarios DCI. Tout d'abord, la technologie VOQ (Virtual Output Queue) est utilisée pour allouer les paquets reçus dans le réseau à différentes files d'attente virtuelles, puis utiliser le mécanisme de communication Credit pour déterminer que l'extrémité réceptrice dispose de suffisamment d'espace tampon avant d'envoyer ces paquets, réduisant ainsi le risque de perte de paquets causée par une congestion de sortie.

Utiliser DDC pour créer des réseaux d’IA ? Cela pourrait juste être une belle illusion

La solution DDC n'est qu'un feu de paille dans la scène DCI

L'idée semble parfaite, mais la mise en œuvre ne se déroule pas sans heurts. Le produit Network Cloud de DriveNets est la première et la seule solution DDC commerciale du secteur, et l'ensemble du logiciel est adapté aux routeurs universels en boîte blanche. Cependant, jusqu'à présent, aucun cas de vente clair n'a été observé sur le marché. AT&T, en tant que proposant de la solution d'architecture DDC, a déployé la solution DDC en échelle de gris dans son

IPbackbone network auto-construit en 2020, mais il y a eu peu de suivi. Pourquoi cette éclaboussure n'a-t-elle pas fait beaucoup de vagues ? Cela doit être attribué aux quatre défauts majeurs du DDC.

Défaut 1 : gestion de l'équipement et plan de contrôle peu fiables

Les composants de l'équipement de type cadre réalisent l'interconnexion du plan de contrôle et de gestion via le bus PCIe hautement intégré et hautement fiable, et l'équipement utilise une conception de carte de contrôle principale double pour garantir que l'équipement Le plan de contrôle est très fiable. DDC utilise des câbles de module fragiles « à remplacer en cas de rupture » ​​pour s'interconnecter afin de créer un cluster multi-périphériques et de prendre en charge le fonctionnement du plan de gestion et de contrôle du cluster. Bien qu'elle dépasse l'échelle des équipements de type boîtier, cette méthode d'interconnexion peu fiable entraîne de grands risques pour la surface de gestion et de contrôle. Lorsque deux appareils sont empilés, des problèmes tels qu'une division cérébrale et une désynchronisation des entrées de table peuvent survenir. Pour le plan de gestion et de contrôle peu fiable du DDC, ce type de problème est plus susceptible de se produire.

Défaut 2 : Équipement très complexe NOS

La communauté SONiC a déjà conçu un cadre de transfert distribué basé sur l'architecture VOQ, et continue de le compléter et de le modifier de manière itérative pour répondre à la prise en charge du DDC. Bien qu'il existe effectivement de nombreux cas de mise en œuvre de la boîte blanche, peu de gens contestent la « boîte blanche ». Pour créer un « cadre blanc » distant, nous devons non seulement prendre en compte l'état de plusieurs périphériques dans le cluster, la synchronisation et la gestion des informations d'entrée de table, mais également envisager plusieurs scénarios pratiques tels que les mises à niveau de version, les restaurations et les modifications à chaud. mise en œuvre systématique des correctifs sous plusieurs appareils. DDC a augmenté de façon exponentielle les exigences de complexité NOS pour les clusters. Actuellement, il n'existe aucun cas commercial mature dans l'industrie et les risques de développement sont importants.

Défaut 3 : Manque de solutions maintenables

Le réseau n'est pas fiable, c'est pourquoi le réseau ETH a créé de nombreuses fonctionnalités ou outils maintenables et positionnables, tels que les familiers INT et MOD. Ces outils peuvent surveiller des flux spécifiques et identifier les caractéristiques des flux de perte de paquets pour localiser et résoudre les problèmes. Cependant, la cellule utilisée par DDC ne représente qu'une tranche du message, sans adresse IP pertinente ni autres informations à cinq tuples, et ne peut pas être associée à un flux de service spécifique. Une fois la perte de paquets survenu dans DDC, les méthodes d'exploitation et de maintenance actuelles ne peuvent pas localiser le point de perte de paquets et le plan de maintenance fait cruellement défaut.

Défaut 4 : Augmentation des coûts

Afin de dépasser la limitation de taille de trame, DDC doit interconnecter les périphériques du cluster via des câbles/modules à haut débit, le coût d'interconnexion est beaucoup plus élevé que celui entre les cartes de ligne d'équipement de trame et ; cartes réseau Il est interconnecté via des traces PCB et des liaisons à haut débit, et plus l'échelle est grande, plus le coût d'interconnexion est élevé.

Dans le même temps, afin de réduire la concentration de la consommation électrique en un seul point, la consommation électrique globale d'un cluster DDC interconnecté via des câbles/modules est supérieure à celle des appareils de type cadre. Pour les puces de même génération, en supposant que les périphériques du cluster DDC soient interconnectés par des modules, la consommation électrique du cluster est 30 % supérieure à celle des périphériques de type frame.

Refusez de faire frire les restes, la solution DDC n'est pas non plus adaptée aux réseaux IA

L'immaturité et l'imperfection de la solution DDC ont malheureusement quitté la scène DCI. Mais actuellement, il connaît un regain d’intérêt sous la pression de l’IA. L'auteur estime que le DDC n'est pas non plus adapté aux réseaux d'IA. Nous l'analyserons ensuite en détail.

Deux exigences fondamentales du réseau IA : un débit élevé et une faible latence

Les services pris en charge par le réseau IA se caractérisent par un petit nombre de flux et une grande bande passante d'un seul flux en même temps ; le temps, le trafic est inégal, et il y a souvent une ou plusieurs situations de frappe plus (All-to-All et All-Reduce). Par conséquent, il est extrêmement sujet à des problèmes tels qu'une charge de trafic inégale, une faible utilisation des liaisons, une perte de paquets causée par des embouteillages fréquents, etc., et ne peut pas libérer pleinement la puissance de calcul.

DDC résout uniquement le problème de hachage, mais apporte également de nombreux défauts

DDC utilise la commutation de cellules pour découper le message en cellules et utilise un mécanisme d'interrogation pour l'envoyer en fonction des informations d'accessibilité. La charge de trafic sera répartie sur chaque lien de manière relativement équilibrée, utilisant pleinement la bande passante et résolvant mieux le problème de hachage. Mais à part cela, DDC présente encore quatre défauts majeurs dans le scénario IA.

Défaut 1 : Le matériel nécessite un équipement spécifique, ce qui n'est pas universel pour les réseaux privés fermés.

La commutation cellulaire et la technologie VOQ dans l'architecture DDC reposent toutes sur des puces matérielles spécifiques pour la mise en œuvre. Actuellement, les équipements du réseau DCN ne peuvent pas être réutilisés. Le développement rapide du réseau ETH bénéficie de sa commodité plug-and-play, de sa généralisation et de sa standardisation. DCC s'appuie sur du matériel et construit un réseau privé fermé via un protocole de commutation propriétaire, qui n'est pas universel.

Défaut 2 : La conception du grand cache augmente les coûts du réseau et ne convient pas aux réseaux DCN à grande échelle

Si la solution DDC entre dans le DCN, en plus des coûts d'interconnexion élevés, elle supportera également le fardeau des coûts de le grand cache de la puce. Les réseaux DCN utilisent actuellement de petits périphériques de cache, avec un maximum de seulement 64 M ; les solutions DDC dérivées des scénarios DCI ont généralement une puce HBM de plus de Go. Par rapport au DCI, les réseaux DCN à grande échelle sont davantage préoccupés par les coûts de réseau.

Défaut 3 : le délai du réseau statique augmente et ne correspond pas au scénario de l'IA

En tant que réseau d'IA haute performance qui libère de la puissance de calcul, l'objectif est de raccourcir le temps d'exécution des services. La grande capacité de cache du DDC met en cache les paquets, ce qui augmentera inévitablement le délai statique de transfert matériel. Dans le même temps, la commutation, le découpage, l’encapsulation et le réassemblage des messages augmentent également le délai de transmission du réseau. Grâce à la comparaison des données test, le délai de transfert DDC augmente de 1,4 fois par rapport au réseau ETH traditionnel.

Défaut 4 : à mesure que l'échelle du DC augmente, le problème du manque de fiabilité du DDC s'aggravera

Par rapport au scénario dans lequel le DDC remplace l'équipement de châssis dans les scénarios DCI, le DDC doit répondre à un cluster plus grand pour entrer dans le DCN, au moins Pour rencontrer un réseau POD. Cela signifie que la « boîte » est plus espacée et que les composants sont plus éloignés les uns des autres. Ensuite, il existe des exigences plus élevées en matière de fiabilité du plan de gestion et de contrôle de ce cluster, de gestion de la synchronisation du réseau de périphériques NOS et de gestion de l'exploitation et de la maintenance au niveau du POD du réseau. Les différents défauts de DDC vont se fissurer.

DDC est au mieux une solution transitionnelle

Bien sûr, aucun problème n'est insoluble. En acceptant certaines contraintes, ce scénario spécifique peut facilement devenir l'occasion pour les grands constructeurs de « montrer leurs compétences ». Le réseau recherche la fiabilité, la simplicité et l’efficacité et rejette la complexité. Surtout dans le contexte actuel de « réduction du personnel et d'augmentation de l'efficacité », nous devons vraiment prendre en compte le coût de la mise en œuvre du DDC.

Face à des problèmes de partage de charge réseau dans les scénarios d'IA, de nombreux cas ont été résolus grâce à une orchestration globale statique ou dynamique des chemins de transfert. À l'avenir, cela pourra également être résolu via la carte réseau côté terminal basée sur Packet Spray et. réarrangement dans le désordre. Par conséquent, le DDC est au mieux un plan de transition à court terme.

Après une analyse approfondie, la force motrice derrière DDC pourrait être DNX

Parlons enfin de la société de puces réseau grand public Broadcom (Broadcom). Les deux séries de produits que nous connaissons mieux sont StrataXGS et StrataDNX. XGS poursuit sa route vers une bande passante élevée et un faible coût, en lançant rapidement des produits à puce avec un petit cache et une large bande passante, et continue de dominer le taux d'occupation du réseau DCN. StrataDNX, cependant, supporte le coût d'un grand cache et perpétue le mythe de l'échange de cellules VOQ+, en espérant que DDC entrera dans DC pour continuer sa vie. Il ne semble pas y avoir de cas en Amérique du Nord. Le DDC national pourrait être la goutte qui a fait déborder le vase pour DNX.

Aujourd'hui, un grand nombre d'installations matérielles telles que les GPU ont été restreintes dans une certaine mesure dans notre pays. Avons-nous vraiment besoin du DDC ? Laissons plus d’opportunités aux appareils produits localement !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer