Maison > Article > Périphériques technologiques > À l’ère des grands modèles d’IA, les nouvelles bases de stockage de données favorisent la transition vers l’intelligence numérique de l’éducation et de la recherche scientifique
L'IA générative (AIGC) a ouvert une nouvelle ère de l'intelligence artificielle générale. La concurrence autour des grands modèles est spectaculaire. L'infrastructure informatique est le principal objectif de la concurrence, et l'éveil du pouvoir devient de plus en plus un consensus industriel.
Dans la nouvelle ère, les grands modèles passent d'une modalité unique à la multimodalité, la taille des paramètres et des ensembles de données d'entraînement augmente de façon exponentielle et les données massives non structurées nécessitent en même temps la prise en charge de capacités de charge mixtes hautes performances ; Les paradigmes gourmands en données deviennent populaires et les scénarios d'application tels que le calcul intensif et le calcul haute performance (HPC) évoluent en profondeur. Les bases de stockage de données existantes ne sont plus en mesure de répondre aux besoins de mises à niveau continues.
Si la puissance de calcul, les algorithmes et les données constituent la « troïka » qui conduit le développement de l'intelligence artificielle, alors dans le contexte d'énormes changements dans l'environnement externe, les trois doivent de toute urgence retrouver un équilibre dynamique. L'amélioration de la « puissance douce » provoquée par l'amélioration des modèles d'algorithmes et l'amélioration de la « puissance dure » provoquée par l'optimisation de l'alimentation en énergie de calcul nécessitent un soutien supplémentaire - la « capacité » de transmission des données et la « capacité de stockage » des données. le stockage doit être amélioré.En tant que source d'énergie, de nouvelles bases de stockage de données sortiront du cocon et deviendront un papillon en train de relever de nombreux défis.
Les scénarios d'application avec des exigences complexes et en constante évolution sont la meilleure pierre de touche pour de nouvelles bases de stockage de données. En ce sens, le secteur de l’enseignement et de la recherche scientifique en est un représentant typique : la puissance de calcul et les données sont des éléments clés de la transformation numérique dans ce domaine, et le calcul pour la recherche scientifique avec intégration disciplinaire est tout aussi important que l’aide à la décision basée sur les données. Le passage du HPC au HPDA (High Performance Data Analysis) est une étape importante pour améliorer l’efficacité de l’enseignement et de la recherche scientifique, et l’autonomisation de l’IA peut aider à résoudre des problèmes qui étaient impossibles, inexacts et peu pratiques à calculer dans le passé.
Lors de la Conférence mondiale sur l'intelligence artificielle 2023 qui s'est tenue récemment, le stockage distribué OceanStor Pacific de Huawei a aidé l'Université Jiao Tong de Shanghai à construire une base de stockage HPC+AI qui a été officiellement lancée. La base de données unifiée « Turn it over » sera étendue de 25 Po supplémentaires cette année. Il devrait devenir une nouvelle référence pour la transformation numérique et intelligente de l’enseignement et de la recherche scientifique, et également poser une étape importante dans l’exploration de nouvelles bases de stockage de données.
Avec la transformation numérique de milliers d'industries qui entrent en eaux profondes et l'explosion coordonnée de technologies émergentes telles que l'intelligence artificielle et le big data, la relation entre les données et la puissance de calcul subit des changements subtils.
Le domaine de l’éducation et de la recherche scientifique est à la pointe de l’économie numérique et est assez sensible à cette évolution. Autrefois, les données devaient suivre la puissance de calcul. Afin de faire face à la solution numérique rapide de problèmes scientifiques et d'ingénierie complexes, la communauté de l'éducation et de la recherche scientifique s'est depuis longtemps concentrée sur la manière de construire la puissance de calcul la plus puissante, alors que les données ne sont considérées que comme un outil de soutien pour puissance de calcul.
De nos jours, « la puissance de calcul tourne autour des données » est progressivement devenue une nouvelle tendance. L’émergence d’applications émergentes, l’expansion du volume de données et la mise en lumière des problèmes de sécurité des données ont mis davantage l’accent sur la valeur des données elles-mêmes. Basé sur les percées de l'IA, du Big Data et d'autres technologies, le calcul intensif traditionnel évolue vers un calcul intensif à forte intensité de données, et de multiples puissances de calcul hétérogènes doivent être construites autour de la même base de stockage de données.
Lin Xinhua, directeur adjoint du Centre d'information sur les réseaux de l'Université Jiao Tong de Shanghai, estime que le renversement de la domination en matière de données et de puissance de calcul offre non seulement l'opportunité de construire une plate-forme de calcul intensif à forte intensité de données, mais apporte également de nombreux nouveaux défis au monde. construction d'une base de stockage de données unifiée.
Tout d’abord, la croissance explosive des données a considérablement augmenté la demande de capacité de stockage. Selon les statistiques, l'échelle de données de la plate-forme « Jiaowosuan » a augmenté à un rythme annuel de 7 Po. Le volume de données de scénarios d'application tels que la météorologie et l'océanographie, l'exploration énergétique, la télédétection par satellite, le séquençage des gènes, la cryomicroscopie électronique, l'IA. la conduite autonome, la fabrication CAE et le rendu d'animation ont tous atteint le niveau de 7 pétaoctets, il n'est pas facile d'utiliser une infrastructure de données pour accueillir une telle quantité de données.
Deuxièmement, de nouvelles activités émergent constamment et nécessitent des performances de stockage plus élevées. L'accélération du processus de généralisation de l'IA, en particulier la production par lots de grands modèles et de multimodalités, pose de sérieux défis aux performances des IO. Alors que des centaines de téraoctets d'ensembles de données deviennent la norme, le traitement du langage naturel et les applications multimodales ont accéléré la croissance du volume de données, et un accès efficace aux petits ensembles de données de formation de fichiers nécessite des performances de stockage pour atteindre un nouveau niveau.
Troisièmement, le stockage multicluster est partagé entre les campus, et le flux de données entre des clusters hétérogènes peut entraîner des problèmes tels qu'une perte de données et un fonctionnement lent. La plate-forme « Jiaowosuan » offre une variété de puissance de calcul hétérogène, notamment des clusters ARM, des clusters X86 et des clusters IA. Parmi de nombreux clusters, ce n'est qu'en réalisant un flux de données complet et une intégration complète des données que la valeur maximale de la puissance de calcul et des données peut être libérée.
Enfin, avec la formation traditionnelle des disques locaux de l'IA, ainsi que l'analyse des données à haute concurrence, il est urgent de briser le mur des E/S. Le goulot d'étranglement des E/S dans le processus de migration de données multiples est très important : le processus traditionnel de lecture et d'écriture est long, le chargement des données implique trois migrations de données et le point de contrôle implique également deux migrations de données. La perte d'efficacité provoquée au cours de ce processus ne peut être ignorée.
Afin de relever les défis ci-dessus, l'Université Jiao Tong de Shanghai et Huawei Storage ont lancé une coopération approfondie depuis 2019 pour construire conjointement une plate-forme de supercalcul à forte intensité de données « remettez-moi ». S'appuyant sur leur profonde accumulation d'innovations technologiques et applicatives, les produits de stockage distribué OceanStor Pacific de Huawei aident « Tuowo Calculation » à construire une base de données unifiée pour prendre en charge diverses plates-formes de puissance de calcul hétérogènes au sein de l'école.
Construire une base de données intégrée unifiée et distribuée est le seul moyen pour « Leave It To Me » d'adopter les applications de données émergentes. Basée sur une architecture de stockage distribuée évolutive horizontalement, la capacité de stockage et la bande passante de la plateforme « Jiaowosuan » peuvent être étendues à la demande. Premièrement, la capacité de performances augmente de manière linéaire et un seul cluster peut atteindre une capacité de niveau EB ; deuxièmement, il utilise du matériel haute densité et de grande capacité pour économiser de l'espace dans l'armoire ; compression basée sur des scénarios.
Il est entendu que la plate-forme « Jiaowosuan » passera d'une capacité initiale de 2 Po et d'une bande passante de 6 Go/s à une capacité de 20 Po et une bande passante de 60 Go/s en 2020, et sera étendue à une capacité de 40 Po et une bande passante de 120 Go/s en 2022. son lancement est prévu en 2023. La capacité sera augmentée de 25 Po supplémentaires. Dans le même temps, le stockage distribué OceanStor Pacific de Huawei présente une conception ultra haute densité de 5U et 120 emplacements de disque, combiné à un algorithme de protection contre la redondance des données EC à grande échelle, il peut augmenter l'utilisation de l'espace du disque dur à 91,6 % tout en respectant les normes. haute fiabilité.
La prise en charge matérielle 100 % Flash distribuée est la pierre angulaire du « laissez-moi faire » pour résoudre les problèmes de performances de stockage. Avec l'aide de Huawei OceanStor Pacific, la plate-forme « Turn it over » utilise l'accélération matérielle 100 % Flash pour améliorer considérablement la bande passante et les performances IOPS. Chaque nœud dispose de 800 000 IOPS et d'une bande passante de 20 Go/s, ce qui peut répondre aux exigences de hautes performances. conditions de charge mixtes.
La gestion unifiée du stockage distribué mondial sur les campus est un bon moyen de résoudre le problème du partage de stockage multicluster. En utilisant le système de fichiers global pour gérer plusieurs ensembles de stockage sur plusieurs domaines, la plate-forme « Jiaowosuan » crée une base de données unifiée sur tous les campus. Avec la prise en charge des produits de stockage distribué OceanStor Pacific de Huawei, elle permet d'obtenir des vues globales de fichiers, une gestion et une planification des données. flux de données global, métadonnées de streaming unifiées et autres objectifs multiples.
L'accélération de l'analyse des données, l'interopérabilité sans perte d'accès multiprotocole et la haute efficacité sans délocalisation sont les outils puissants qui permettent de « me laisser faire » pour briser le mur des E/S. Basée sur la solution de stockage orientée IA de Huawei et sur la capacité de stockage distribué OceanStor Pacific de Huawei de « une donnée, accès via plusieurs protocoles », la plate-forme « Turn it over » réalise un stockage externe pour réduire la relocalisation des données, améliore considérablement l'efficacité de l'analyse et économise le stockage. espace.
Grâce à la plate-forme « Jiaowosuan » et à la trajectoire d'évolution de la collaboration avec Huawei Storage pour créer une nouvelle base de données intégrée unifiée et distribuée, il n'est pas difficile de voir que les scénarios à forte intensité de données accélèrent leur évolution.
Des premiers HPC aux HPDA ultérieurs, puis à la symbiose HPDA+AI, les scénarios d'application dans l'industrie de l'enseignement et de la recherche scientifique ont continué à s'enrichir, et la demande de produits de stockage et de bases de données a également continué d'augmenter. En fait, l’enseignement et la recherche scientifique ne sont que la pointe de l’iceberg dans le processus de numérisation de milliers d’industries. L’ère du stockage de données approche.
L'arrivée de l'ère des grands modèles va remodeler davantage l'infrastructure informatique, y compris le stockage, et les produits de stockage dotés de nouveaux gènes d'IA devraient devenir les nouveaux favoris dans la mise à niveau numérique de l'industrie. Le 14 juillet, la conférence de lancement des nouveaux produits de stockage IA de Huawei à l'ère des grands modèles, sur le thème « Un nouveau paradigme de données libérant un nouvel élan pour l'IA », se tiendra en ligne. Que vous déployiez l'IA dans votre entreprise ou développiez des applications dotées de capacités d'IA, les solutions publiées cette fois fourniront une meilleure architecture technique et des produits pour vous aider à suivre le rythme.
La généralisation de l'intelligence artificielle a commencé. Le leader de l'industrie du stockage a pris les devants en lançant l'appel au clairon. Chaque mouvement qui suit mérite d'être attendu.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!