Maison >Périphériques technologiques >IA >Transformateur simple et efficace (moteur d'inférence en ligne de très grand modèle de NetEase)

Transformateur simple et efficace (moteur d'inférence en ligne de très grand modèle de NetEase)

王林avant: 2024-01-24 10:45:05548parcourir

Easy and Efficient Transformer（网易超大模型线上推理引擎）

Le cadre d'accélération d'inférence open source de NetEase pour les modèles basés sur des transformateurs prend en charge l'inférence hautes performances sur une seule carte de dizaines de milliards de modèles sur l'architecture Ampere de milieu à bas de gamme.

Contexte du projet

Les modèles à grande échelle basés sur des transformateurs se sont révélés efficaces dans diverses tâches dans de nombreux domaines. Cependant, son application à la production industrielle nécessite des efforts considérables pour réduire le coût d’inférence. Pour combler cette lacune, nous proposons une solution d'inférence évolutive : Easy and Efficient Transformer (EET). EET est un système qui comprend une série d'optimisations de raisonnement Transformer aux niveaux de l'algorithme et de la mise en œuvre. En optimisant les processus de calcul et de données de Transformer, EET peut réduire considérablement le coût d'inférence et améliorer l'efficacité et les performances du modèle. Nos résultats expérimentaux montrent que l'EET peut améliorer considérablement la vitesse d'inférence et l'utilisation des ressources sans perdre en précision du modèle, offrant ainsi une solution simple et efficace pour les applications de modèles à grande échelle dans la production industrielle.

Tout d'abord, nous avons conçu un noyau hautement optimisé pour les entrées longues et les grandes tailles cachées.

De plus, nous proposons également un gestionnaire de mémoire CUDA flexible pour réduire l'empreinte mémoire lors du déploiement de grands modèles. Par rapport à la bibliothèque d'inférence Transformer de pointe (Faster Transformer v4.0), EET est capable d'atteindre une accélération moyenne de la couche de décodage de 1,40 à 4,20x sur le GPU A100.

Adresse papier

https://arxiv.org/abs/2104.12470

Adresse Github

https://github.com/NetEase-FuXi/EET

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 github 算法 transformer https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Comment le mécanisme d’auto-attention utilise-t-il l’échantillonnage aléatoire pour améliorer les capacités de formation et de généralisation des modèles d’intelligence artificielle ?Article suivant：Comment le mécanisme d’auto-attention utilise-t-il l’échantillonnage aléatoire pour améliorer les capacités de formation et de généralisation des modèles d’intelligence artificielle ?

Articles Liés

Voir plus