Maison  >  Article  >  Périphériques technologiques  >  Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

WBOY
WBOYavant
2023-04-16 13:28:051154parcourir

Le cluster de calcul haute performance HCC de nouvelle génération utilise la dernière génération de serveurs développés par Xinghai et est équipé du GPU NVIDIA H800 Tensor Core.

Les responsables de Tencent ont déclaré que le cluster est basé sur une architecture de réseau et de stockage auto-développée, apportant une bande passante d'interconnexion ultra-élevée de 3,2T, une capacité de débit de l'ordre de la To et des dizaines de millions d'IOPS. Les résultats des mesures réelles montrent que les performances de puissance de calcul du cluster de nouvelle génération sont multipliées par 3 par rapport à la génération précédente.

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

En octobre de l'année dernière, Tencent a terminé la formation du premier grand modèle d'IA avec un billion de paramètres - le grand modèle Hunyuan NLP. Avec le même ensemble de données, la durée de formation est réduite de 50 jours à 11 jours. S'il s'agit d'un cluster nouvelle génération, le temps de formation sera encore réduit à 4 jours.

Au niveau informatique, les performances du serveur autonome sont la base de la puissance de calcul du cluster. La carte GPU unique du cluster de nouvelle génération de Tencent Cloud prend en charge une sortie allant jusqu'à 1979 TFlops de puissance de calcul sous différentes précisions.

Pour les scénarios de grands modèles, le serveur auto-développé de Xingxinghai adopte une conception ultra-haute densité 6U, qui est 30 % supérieure à la densité d'étagère prise en charge par l'industrie en utilisant le concept de calcul parallèle, grâce à la conception intégrée des nœuds CPU et GPU ; calculs en un seul point Les performances de résistance sont améliorées à un niveau supérieur.

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

Au niveau du réseau, il existe des besoins massifs en matière d'interaction de données entre les nœuds informatiques. À mesure que l'échelle du cluster s'étend, les performances de communication affecteront directement l'efficacité de la formation, nécessitant une collaboration maximale entre le réseau et les nœuds informatiques.

Le réseau informatique haute performance Xingmai auto-développé par Tencent prétend disposer de la bande passante de communication RDMA 3,2T la plus élevée du secteur. Les résultats des mesures réelles montrent qu'équipé du même nombre de GPU, le réseau Xingmai 3,2T présente une augmentation de 20 % de la puissance de calcul globale du cluster par rapport au réseau 1,6T.

Dans le même temps, la bibliothèque de communication collective haute performance développée par Tencent, TCCL, est intégrée dans des solutions conçues sur mesure. Par rapport à la bibliothèque de communication collective open source du secteur, elle optimise les performances de charge de 40 % pour la formation de grands modèles et élimine les problèmes d'interruption de formation causés par de multiples raisons de réseau.

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

Au niveau du stockage, lors de l'entraînement de grands modèles, un grand nombre de nœuds de calcul liront un lot d'ensembles de données en même temps. Il est nécessaire de raccourcir au maximum le temps de chargement des données pour éviter d'attendre. nœuds de calcul.

L'architecture de stockage développée par Tencent Cloud offre des capacités de débit de l'ordre du téraoctet et des dizaines de millions d'IOPS, répondant aux besoins de stockage dans différents scénarios. La solution de stockage d'objets COS+GooseFS et la solution de stockage de fichiers hautes performances CFS Turbo répondent pleinement aux exigences de hautes performances, de débit élevé et de stockage massif dans les scénarios de grands modèles.

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

De plus, le cluster de nouvelle génération intègre le moteur d'accélération de formation TACO auto-développé par Tencent Cloud, qui effectue un grand nombre d'optimisations au niveau du système sur les protocoles réseau, les stratégies de communication, les cadres d'IA et la compilation de modèles, économisant ainsi considérablement la formation. les coûts de réglage et de puissance de calcul.

AngelPTM, le cadre de formation derrière le grand modèle Hunyuan de Tencent, a également fourni des services via Tencent Cloud TACO pour aider les entreprises à accélérer la mise en œuvre de grands modèles.

Grâce aux grandes capacités de modèle et à la boîte à outils de la plateforme Tencent Cloud TI, les entreprises peuvent organiser des formations affinées basées sur des données de scénarios industriels, améliorer l'efficacité de la production et créer et déployer rapidement des applications d'IA.

Tencent lance une nouvelle génération de cluster informatique super puissant : pour la formation de grands modèles, les performances sont multipliées par 3

S'appuyant sur les capacités de gouvernance distribuées natives du cloud, Tencent Cloud Intelligent Computing Platform fournit 16 EFLOPS de puissance de calcul en virgule flottante.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer