Maison >Périphériques technologiques >IA >Le développement de l'ère des grands modèles d'IA nécessite une technologie de stockage avancée pour réaliser des progrès stables
La discipline de l'intelligence artificielle est née en 1956, puis n'a fait pratiquement aucun progrès au cours du demi-siècle suivant. Le développement de la puissance de calcul et des données était loin derrière les algorithmes. Cependant, avec l'avènement de l'ère Internet en 2000, les limites de la puissance de calcul ont été brisées, l'intelligence artificielle a progressivement pénétré tous les domaines de la vie et a inauguré l'ère des modèles à grande échelle. Cependant, les données de haute qualité semblent être devenues le dernier « goulot d'étranglement » dans le développement de l'intelligence artificielle
Huawei OceanStor Pacific a remporté le « Prix de la meilleure innovation pour la base de stockage IA » lors de la récente conférence annuelle nationale sur le calcul haute performance (CCF HPC China 2 doit être réécrit comme : 023)
L’émergence du concept de rétention de l’IA reflète en réalité l’amélioration continue de la valeur des données pour l’IA
Le contenu à réécrire est : 01
Les données déterminent le niveau d'intelligence de l'intelligence artificielle
Le développement de l’intelligence artificielle est un processus de collecte et d’analyse continue de données. Les données, en tant que vecteur d’informations, constituent la base de l’intelligence artificielle pour apprendre et comprendre le monde. L'intelligence générale est l'objectif ultime du développement de l'intelligence artificielle. Elle peut apprendre, comprendre, raisonner et résoudre des problèmes de manière autonome, et les données sont le principal moteur de son développement
Alors, plus il y a de données, plus l’IA devient intelligente ? Tant qu’il existe une grande quantité de données, l’IA peut-elle surpasser le rôle des experts ?
Prenons l'exemple des systèmes d'intelligence artificielle dans le domaine médical. De nombreux cas de diagnostic n'ont en réalité pas une seule bonne réponse. Dans le diagnostic médical, chaque ensemble de symptômes a une gamme de causes possibles avec des probabilités variables, de sorte que la prise de décision assistée par l'IA peut aider les cliniciens à affiner les causes possibles jusqu'à ce qu'une solution soit trouvée. Dans ce cas, l'intelligence artificielle médicale ne s'appuie pas sur de grandes quantités de données, mais sur des données précises et de haute qualité. Ce n'est qu'ainsi qu'elle peut garantir que les causes réelles possibles ne passent pas inaperçues lors du « dépistage »
.L'importance de la qualité des données pour l'intelligence artificielle se reflète dans cette démonstration typique
Dans l'industrie de l'intelligence artificielle, il y a toujours eu un consensus selon lequel « les déchets entrent, les déchets sortent ». Cela signifie que sans saisie de données de haute qualité, quel que soit le degré d'avancement de l'algorithme ou la puissance de calcul de la puissance de calcul, il ne sera pas en mesure de produire des résultats de haute qualité
De nos jours, nous sommes à l’aube des grands modèles. De grands modèles d’intelligence artificielle poussent comme des champignons après la pluie. Un certain nombre de grands modèles en Chine, tels que Pangu de Huawei, Spark d'iFlytek et Taichu de Zidong, se développent rapidement et s'engagent à construire une plate-forme universelle intersectorielle de capacités d'intelligence artificielle pour fournir l'énergie nécessaire à la transformation numérique de tous les horizons.
Selon le « Rapport de recherche sur les grandes cartes de modèles d'intelligence artificielle de Chine » publié fin mai par le Centre de recherche sur le développement de l'intelligence artificielle de nouvelle génération du ministère chinois des Sciences et des Technologies, 79 grands modèles d'une échelle de plus d'un milliard les paramètres ont été publiés en Chine. Bien que le schéma de la « Bataille des 100 modèles » ait été formé, il a également déclenché une réflexion approfondie sur le développement de grands modèles
Les capacités d'expression des modèles basés sur des données à petite échelle sont limitées par la taille des données. Ils ne peuvent effectuer que des simulations et des prédictions à gros grain et ne sont plus applicables dans les situations où les exigences de précision sont relativement élevées. Si vous souhaitez améliorer encore la précision du modèle, vous devez utiliser des données massives pour générer des modèles pertinents
Le contenu réécrit est le suivant : cela signifie que la quantité de données détermine le degré d'intelligence de l'IA. Quelle que soit la qualité des données, la quantité de données est un domaine d’intérêt qui doit être axé sur le renforcement de la « capacité de stockage de l’IA »
Ce qu'il faut réécrire c'est : 02
A l'ère du big data, les enjeux de la data
À mesure que l'intelligence artificielle évolue vers les grands modèles et la multimodalité, les entreprises sont confrontées à de nombreux défis lors du développement ou de la mise en œuvre d'applications à grands modèles
Tout d’abord, le cycle de prétraitement des données est très long. Étant donné que les données sont distribuées dans différents centres de données, différentes applications et différents systèmes, il existe des problèmes tels qu'une vitesse de collecte lente. Par conséquent, il faut environ 10 jours pour prétraiter 100 To de données. L'utilisation du système doit être améliorée. début.
Deuxièmement, le problème de la faible efficacité de chargement des ensembles d'entraînement doit être résolu. De nos jours, l'échelle des modèles à grande échelle devient de plus en plus grande, avec des niveaux de paramètres atteignant des centaines de milliards, voire des milliards. Le processus de formation nécessite une grande quantité de ressources informatiques et d'espace de stockage. Par exemple, les modèles multimodaux à grande échelle utilisent des textes et des images massifs comme ensembles de formation, mais la vitesse de chargement actuelle de petits fichiers volumineux est lente, ce qui entraîne un chargement inefficace des ensembles de formation
De plus, nous sommes également confrontés aux défis liés au réglage fréquent des paramètres des grands modèles et aux plateformes de formation instables, avec des interruptions de formation se produisant en moyenne tous les deux jours. Afin de reprendre la formation, un mécanisme de point de contrôle doit être utilisé et le temps de récupération après une panne dépasse une journée, ce qui pose de nombreux défis pour la continuité des activités
Pour réussir dans l'ère du grand modèle d'IA, nous devons prêter attention à la fois à la qualité et à la quantité des données et construire une infrastructure de stockage de grande capacité et hautes performances. C'est devenu un élément clé de la victoire
Le contenu à réécrire est : 03
La clé de l'ère de l'IA est la base de stockage d'énergie
Avec la combinaison du big data, de l'intelligence artificielle et d'autres technologies avec le calcul haute performance, l'analyse de données haute performance (HPDA) est devenue une nouvelle forme de valorisation des données. En utilisant davantage de données historiques, de multiples puissances de calcul et méthodes d’analyse hétérogènes, HPDA peut améliorer la précision de l’analyse. Cela marque une nouvelle étape de la recherche intelligente dans la recherche scientifique, et la technologie de l'intelligence artificielle accélérera l'application de résultats de pointe
Aujourd'hui, un nouveau paradigme basé sur la « data-intensive science » émerge dans le domaine de la recherche scientifique. Ce paradigme se concentre davantage sur la combinaison de l’exploration de connaissances Big Data et de la formation et de la technologie de raisonnement en intelligence artificielle pour obtenir de nouvelles connaissances et découvertes grâce au calcul et à l’analyse. Cela signifie également que les exigences relatives à l’infrastructure de données sous-jacente vont fondamentalement changer. Qu'il s'agisse du calcul haute performance ou du développement futur de l'intelligence artificielle, une infrastructure de stockage avancée doit être mise en place pour relever les défis liés aux données
Pour résoudre les problèmes liés aux données, nous devons commencer par innover en matière de stockage de données. Comme le dit le proverbe, celui qui a détaché la cloche doit attacher la cloche
.La base de stockage AI est développée sur la base du stockage distribué OceanStor Pacific et adhère au concept de conception AI Native pour répondre aux besoins de stockage de tous les aspects de l'IA. Les systèmes d'IA posent de nombreux défis en matière de stockage, notamment l'accélération du calcul des données, la gestion du stockage des données et une circulation efficace entre le stockage des données et l'informatique. En utilisant une combinaison de « stockage de grande capacité + stockage haute performance », nous pouvons assurer la planification et la coordination des ressources de stockage, afin que chaque lien puisse fonctionner efficacement, libérant ainsi pleinement la valeur du système d'IA
Comment le stockage distribué OceanStor Pacific démontre-t-il ses principales capacités ?
Tout d’abord, l’architecture technique est unique dans l’industrie. Ce système de stockage prend en charge une expansion horizontale illimitée et peut gérer des charges mixtes. Il peut gérer efficacement les IOPS de petits fichiers et la bande passante de lecture et d'écriture à grande vitesse de gros fichiers. Il dispose de fonctions de flux de données hiérarchiques intelligentes au niveau des couches de performances et de capacité, et peut réaliser une gestion complète des données d'IA telles que la collecte, le prétraitement, la formation et l'inférence de données massives. De plus, il possède les mêmes capacités d'analyse de données que le HPC et le big data
Le contenu réécrit est le suivant : Deuxièmement, la meilleure façon d'améliorer l'efficacité dans l'industrie passe par l'innovation en matière de stockage. Le premier est le tissage de données, c'est-à-dire l'accès aux données brutes dispersées dans différentes régions via le système de fichiers global GFS pour obtenir une vue et une planification des données globales unifiées entre les systèmes, les régions et plusieurs cloud, simplifiant ainsi le processus de collecte de données. Le second est l'informatique en mémoire proche, qui réalise le prétraitement des données proches en stockant la puissance de calcul intégrée, réduit la transmission de données non valides et réduit le temps d'attente du serveur de prétraitement, améliorant ainsi considérablement l'efficacité du prétraitement
En fait, la « Bataille de centaines de modèles » n'est pas un « signe » du développement de grands modèles d'IA. À l'avenir, tous les horizons utiliseront les capacités des grands modèles d'IA pour promouvoir le développement en profondeur de la transformation numérique, et la construction d'infrastructures de données sera également accélérée. L’innovation du stockage distribué OceanStor Pacific en matière d’architecture technologique et de haute efficacité s’est avérée être le premier choix de l’industrie
Nous comprenons que les données sont devenues un nouveau facteur de production aux côtés de la terre, du travail, du capital et de la technologie. De nombreuses définitions et modèles de fonctionnement traditionnels du marché numérique passé seront réécrits. Ce n'est qu'avec des capacités préexistantes que nous pouvons assurer la progression constante de l'ère des grands modèles d'intelligence artificielle basés sur les données
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!