Maison >Périphériques technologiques >IA >Comment l'intelligence artificielle peut améliorer le développement du matériel

Comment l'intelligence artificielle peut améliorer le développement du matériel

王林avant: 2023-04-13 08:13:021927parcourir

Le matériel informatique est un marché moins actif depuis de nombreuses années. L'architecture dominante des microprocesseurs x86 a atteint les limites des gains de performances pouvant être obtenus grâce à la miniaturisation, de sorte que les fabricants se concentrent principalement sur l'intégration d'un plus grand nombre de cœurs dans une puce.

Pour l'apprentissage automatique et l'apprentissage profond qui se développent rapidement, le GPU est le sauveur. Conçus à l’origine pour le traitement graphique, les GPU peuvent comporter des milliers de petits cœurs, ce qui les rend idéaux pour les capacités de traitement parallèle requises pour la formation en IA.

La nature de l'intelligence artificielle bénéficie du traitement parallèle, et il y a environ 10 ans, on a découvert que les GPU, conçus pour afficher des pixels sur un écran, étaient parfaits pour cela car ce sont des moteurs de traitement parallèle et peuvent mettre beaucoup de cœurs. en eux.

C’est une bonne nouvelle pour Nvidia, qui a vu sa capitalisation boursière passer de moins de 18 milliards de dollars en 2015 à 735 milliards de dollars avant que le marché ne se contracte l’année dernière. Jusqu’à récemment, l’entreprise détenait pratiquement tout le marché à elle seule. Mais de nombreux concurrents tentent de changer cela.

En termes de charges de travail d'IA, ce sont jusqu'à présent les GPU de Nvidia, mais les utilisateurs recherchent des technologies capables de passer au niveau supérieur, et à mesure que le calcul haute performance et les charges de travail d'IA continuent de converger, nous verrons davantage de types d'accélérateurs. font leur apparition.

Accélérer le développement de nouveaux matériels

Les grands fabricants de puces ne restent pas immobiles. Il y a trois ans, Intel a acquis le fabricant de puces israélien Havana Labs et a placé l'entreprise au centre de ses efforts de développement de l'intelligence artificielle.

Le processeur d'optimisation de formation Gaudi2 et le processeur d'inférence Greco lancés par La Havane au printemps dernier seraient au moins deux fois plus rapides que le processeur phare de Nvidia, l'A100.

En mars de cette année, NVIDIA a lancé le GPU accélérateur H100 avec 80 milliards de transistors et la prise en charge de l'interconnexion NVLink haut débit de l'entreprise. Il dispose d'un moteur dédié qui peut accélérer de six fois l'exécution des modèles basés sur Transformer utilisés dans le traitement du langage naturel par rapport à la génération précédente. Des tests récents utilisant le benchmark MLPerf montrent que H100 surpasse Gaudi2 dans la plupart des tests d'apprentissage profond. Nvidia est également considéré comme ayant un avantage dans sa pile logicielle.

De nombreux utilisateurs choisissent les GPU parce qu'ils ont accès à un écosystème de logiciels centralisés. La raison pour laquelle NVIDIA connaît un tel succès est qu'ils ont établi une stratégie d'écosystème.

Les entreprises de cloud computing à grande échelle sont entrées dans ce domaine encore plus tôt que les fabricants de puces. L'unité de traitement Tensor de Google LLC est un circuit intégré spécifique à une application lancé en 2016 et en est actuellement à sa quatrième génération. Amazon Web Services a lancé son accélérateur de traitement d'inférence pour l'apprentissage automatique en 2018, affirmant qu'il offre plus de deux fois les performances des instances accélérées par GPU.

Le mois dernier, la société a annoncé la disponibilité générale d'instances cloud basées sur ses puces Trainium, affirmant qu'elles coûtaient 50 % de moins que l'EC2 basé sur GPU avec des performances comparables dans les scénarios de formation de modèles d'apprentissage profond. Les efforts des deux sociétés se concentrent principalement sur la livraison via des services cloud.

Alors que les leaders établis du marché se concentrent sur des améliorations progressives, bon nombre des innovations les plus intéressantes se produisent parmi les startups qui construisent du matériel spécifique à l'IA. Les investisseurs en capital-risque ont attiré la majorité des 1,8 milliard de dollars investis dans les startups de puces l'année dernière, soit plus du double du montant de 2017, selon les données.

Ils recherchent un marché qui pourrait générer d'énormes gains. Le marché mondial des puces d'intelligence artificielle devrait passer de 8 milliards de dollars en 2020 à près de 195 milliards de dollars d'ici 2030.

Plus petit, plus rapide, moins cher

Peu de startups souhaitent remplacer les processeurs x86, mais c'est parce que l'effet de levier pour le faire est relativement faible. Les puces ne sont plus le goulot d'étranglement, la communication entre les différentes puces est un énorme goulot d'étranglement.

Le processeur effectue des opérations de bas niveau telles que la gestion de fichiers et l'attribution de tâches, mais une approche purement spécifique au processeur n'est plus adaptée à la mise à l'échelle. Les processeurs sont conçus pour une variété d'activités allant de l'ouverture de fichiers à la gestion des caches mémoire. être à usage général. Cela signifie qu’il n’est pas bien adapté aux opérations arithmétiques matricielles massivement parallèles requises pour la formation des modèles d’IA.

La plupart des activités du marché tournent autour des accélérateurs de coprocesseurs, des circuits intégrés spécifiques à des applications et, dans une moindre mesure, des réseaux de portes programmables sur site qui peuvent être ajustés pour des utilisations spécifiques.

Tout le monde suit le récit de Google consistant à développer des coprocesseurs qui fonctionnent en conjonction avec le processeur pour cibler des parties spécifiques de la charge de travail de l'IA en codant en dur les algorithmes dans le processeur plutôt que de les exécuter en tant que logiciel.

Équation d'accélération

L'équation d'accélération est utilisée pour développer ce que l'on appelle des processeurs de flux graphiques pour des scénarios d'informatique de pointe tels que les voitures autonomes et la vidéosurveillance. Le chipset entièrement programmable assume de nombreuses fonctions d'un processeur, mais est optimisé pour le parallélisme au niveau des tâches et le traitement de l'exécution en streaming, en utilisant seulement 7 watts de puissance.

L'architecture est basée sur des structures de données graphiques, où les relations entre les objets sont représentées sous forme de nœuds et d'arêtes connectés. Chaque framework d'apprentissage automatique utilise des concepts graphiques, conservant la même sémantique tout au long de la conception de la puce. L'intégralité du graphique, y compris le CMM mais contenant des nœuds personnalisés, peut être exécutée. Nous pouvons accélérer tout ce qui est parallèle dans ces graphiques.

Son architecture graphique résout certaines des limitations de capacité des GPU et des CPU et peut être adaptée de manière plus flexible aux différents types de tâches d'IA. Cela permet également aux développeurs de déplacer davantage de traitements vers la périphérie pour une meilleure inférence. Si les entreprises peuvent prétraiter 80 % du traitement, elles peuvent économiser beaucoup de temps et d’argent.

Ces applications peuvent rapprocher l'intelligence des données et permettre une prise de décision rapide. L’objectif de la plupart est l’inférence, qui est le déploiement sur le terrain de modèles d’IA, plutôt que les tâches de formation plus gourmandes en calcul.

Une entreprise développe une puce qui utilise l'informatique en mémoire pour réduire la latence et le besoin de périphériques de stockage externes. Sa plate-forme d'intelligence artificielle offrira de la flexibilité et la possibilité d'exécuter plusieurs réseaux neuronaux tout en conservant une grande précision.

Sa série d'unités de traitement de données est une vaste matrice de processeurs parallèles avec un processeur évolutif à 80 cœurs qui peut exécuter des dizaines de tâches en parallèle. L'innovation clé est l'intégration étroite d'un coprocesseur tensoriel à l'intérieur de chaque élément de traitement et la prise en charge de l'échange direct de données tensorielles entre les éléments pour éviter les goulots d'étranglement de la bande passante mémoire. Cela permet une accélération efficace des applications d’IA, car le pré- et le post-traitement sont effectués sur les mêmes éléments de traitement.

Et certaines entreprises se concentrent sur la déduction de modèles d'apprentissage profond à l'aide de chipsets de la taille d'une vignette, qui, selon la société, peuvent effectuer 26 000 milliards d'opérations par seconde tout en consommant moins de 3 watts d'énergie. Cela est en partie réalisé en décomposant chaque couche réseau utilisée pour former un modèle d'apprentissage profond en éléments informatiques requis et en les intégrant sur une puce spécialement conçue pour l'apprentissage profond.

L'utilisation de la mémoire intégrée réduit encore les frais généraux, l'ensemble du réseau se trouve à l'intérieur de la puce et il n'y a pas de mémoire externe, ce qui signifie que la puce peut être plus petite et consommer moins d'énergie. La puce peut exécuter des modèles d'apprentissage profond sur des images haute définition en temps quasi réel, permettant à un seul appareil d'exécuter simultanément la reconnaissance automatique des plaques d'immatriculation sur quatre voies.

Développement actuel du matériel

Certaines startups adoptent davantage une approche lunaire, visant à redéfinir l'ensemble de la plate-forme de formation et d'exécution de modèles d'intelligence artificielle.

Par exemple, un processeur d'IA optimisé pour l'apprentissage automatique peut gérer jusqu'à 350 000 milliards d'opérations de traitement par seconde avec près de 9 000 threads simultanés et 900 Mo de mémoire interne au processeur. Le système informatique intégré s'appelle la machine Bow-2000IPU et serait capable d'effectuer 1,4 pétaflops d'opérations par seconde.

Ce qui le différencie est sa conception de puces empilées en trois dimensions, qui lui permet de regrouper près de 1 500 cœurs de traitement parallèles dans une seule puce. Toutes ces entreprises sont capables de gérer des activités complètement différentes. Cela diffère des architectures GPU largement utilisées, qui préfèrent exécuter les mêmes opérations sur de gros blocs de données.

Pour un autre exemple, certaines entreprises résolvent le problème de l'interconnexion, qui est le câblage entre les composants connectés dans les circuits intégrés. À mesure que les processeurs atteignent leurs vitesses théoriques maximales, le chemin pour déplacer les bits devient de plus en plus un goulot d'étranglement, en particulier lorsque plusieurs processeurs accèdent simultanément à la mémoire. Les puces d'aujourd'hui ne constituent plus le goulot d'étranglement de l'interconnexion.

La puce utilise des guides d'ondes nanophotoniques dans une plate-forme d'intelligence artificielle qui, selon elle, combine une vitesse élevée et une large bande passante dans un boîtier à faible consommation d'énergie. Il s'agit essentiellement d'une couche de communication optique qui peut connecter plusieurs autres processeurs et accélérateurs.

La qualité des résultats de l'IA vient de la capacité de prendre en charge simultanément des modèles très volumineux et complexes tout en obtenant des réponses à très haut débit, les deux étant réalisables. Cela s’applique à tout ce qui peut être fait en utilisant l’algèbre linéaire, y compris la plupart des applications de l’intelligence artificielle.

Les attentes concernant sa plate-forme matérielle et logicielle intégrée sont extrêmement élevées. Les entreprises ont saisi ce point, comme les plates-formes de R&D capables d’exécuter l’intelligence artificielle et d’autres applications gourmandes en données, du centre de données jusqu’à la périphérie.

Et la plate-forme matérielle utilise une puce personnalisée de 7 nm conçue pour l'apprentissage automatique et profond. Son architecture de flux de données reconfigurable exécute une pile logicielle optimisée pour l'IA, et son architecture matérielle est conçue pour minimiser les accès à la mémoire, réduisant ainsi les goulots d'étranglement d'interconnexion.

Le processeur peut être reconfiguré pour s'adapter aux charges de travail d'IA ou de calcul haute performance HPC. Le processeur est conçu pour gérer des opérations matricielles à grande échelle à un niveau de performance plus élevé, ce qui est idéal pour les clients dont les charges de travail changent.

Bien que les CPU, les GPU et même les FPGA soient bien adaptés aux logiciels déterministes tels que les systèmes transactionnels et les ERP, les algorithmes d'apprentissage automatique sont probabilistes, ce qui signifie que les résultats ne sont pas connus à l'avance, ce qui nécessite un type d'infrastructure matérielle complètement différent.

La plate-forme minimise les problèmes d'interconnexion en connectant 1 To de mémoire synchrone à double débit de données à haute vitesse au processeur, masquant essentiellement la latence du contrôleur DDR avec une mémoire sur puce 20 fois plus rapide, donc transparente pour l'utilisateur, cela nous permet de Entraînez des modèles de langage à nombre de paramètres plus élevé et des images de la plus haute résolution sans mosaïque ni sous-échantillonnage.

Le carrelage est une technique utilisée pour l'analyse d'images qui réduit le besoin de puissance de calcul en divisant une image en morceaux plus petits, en analysant chaque morceau, puis en les recombinant. Le sous-échantillonnage entraîne un modèle sur un sous-ensemble aléatoire des données d'entraînement pour économiser du temps et des ressources de calcul. Le résultat est un système non seulement plus rapide que les systèmes basés sur GPU, mais également capable de résoudre des problèmes plus importants.

Résumé

Avec de nombreuses entreprises à la recherche de solutions aux mêmes problèmes, un bouleversement est inévitable, mais personne ne s'attend à ce qu'il se produise de sitôt. Les GPU existeront encore longtemps et resteront probablement la solution la plus rentable pour les projets de formation et d’inférence en IA qui ne nécessitent pas de performances extrêmes.

Néanmoins, à mesure que les modèles du marché haut de gamme deviennent plus grands et plus complexes, il existe un besoin croissant d'architectures fonctionnelles spécifiques. D’ici trois à cinq ans, nous assisterons probablement à une prolifération de GPU et d’accélérateurs d’IA, seul moyen de répondre à la demande à la fin de cette décennie et au-delà.

On s'attend à ce que les principaux fabricants de puces continuent à faire ce pour quoi ils excellent et s'appuient progressivement sur les technologies existantes. De nombreuses entreprises suivront également l'exemple d'Intel et acquerront des startups axées sur l'intelligence artificielle. La communauté du calcul haute performance se concentre également sur le potentiel de l’intelligence artificielle pour aider à résoudre des problèmes classiques tels que les simulations à grande échelle et la modélisation climatique.

L'écosystème du calcul haute performance est toujours à la recherche de nouvelles technologies qu'il peut absorber pour garder une longueur d'avance, et explore ce que l'intelligence artificielle peut apporter. L’informatique quantique se cache dans les coulisses, une technologie qui reste plus théorique que pratique mais qui a le potentiel de révolutionner l’informatique.

Quelle que soit la nouvelle architecture qui gagne du terrain, l'essor de l'intelligence artificielle a sans aucun doute ravivé l'intérêt pour le potentiel de l'innovation matérielle pour ouvrir de nouvelles frontières dans le domaine logiciel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构封装数据结构栈堆线程并发对象算法人工智能 transformer FPGA 数据中心

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Comment affiner des modèles très volumineux avec des ressources GPU limitéesArticle suivant：Comment affiner des modèles très volumineux avec des ressources GPU limitées

Articles Liés

Voir plus