Maison >Périphériques technologiques >IA >Quatre fois plus rapide, la technologie LightSeq du moteur d'inférence de formation open source hautes performances de Bytedance a été révélée
Le modèle Transformer est issu de l'article "Attention is all you need" publié par l'équipe Google en 2017. Cet article a d'abord proposé le concept d'utilisation de Attention pour remplacer la structure cyclique du modèle Seq2Seq, ce qui a apporté un grand impact à la PNL champ. Et avec les progrès continus de la recherche ces dernières années, les technologies liées à Transformer sont progressivement passées du traitement du langage naturel à d’autres domaines. Jusqu'à présent, les modèles de la série Transformer sont devenus des modèles courants dans les domaines de la PNL, du CV, de l'ASR et d'autres domaines.
Par conséquent, comment former et déduire plus rapidement des modèles de transformateurs est devenu une direction de recherche importante dans l'industrie. La technologie de quantification de faible précision peut accélérer le processus de calcul et de communication en réduisant la largeur des données et constitue un moyen important pour accélérer la formation et l'inférence des modèles à ce stade. Cependant, le problème est que la quantification entraînera une perte de précision et d’effet, et cette perte doit être réduite par des moyens tels que la perception quantifiée et l’entraînement. En réponse aux problèmes ci-dessus, ByteDance a développé et mis à niveau le moteur d'entraînement et d'accélération d'inférence LightSeq version 3.0, qui, pour la première fois, permet d'obtenir simultanément un entraînement quantitatif et une inférence quantitative précis et sans perte sur le modèle Transformer.
LightSeq met en œuvre un véritable processus de formation à la quantification via int8 GEMM, au lieu d'utiliser la méthode de pseudo-quantification largement utilisée dans l'industrie, qui peut augmenter la vitesse de formation du modèle de plus de 4 fois. Grâce à des stratégies quantitatives telles que PACT, la perte de formation quantitative peut être minimisée. Après avoir exporté le modèle quantitatif vers un format pris en charge par LightSeq, vous pouvez utiliser davantage le moteur d'inférence quantitative LightSeq pour obtenir une inférence rapide, qui peut être accélérée jusqu'à 70 % sur une carte graphique T4.
Lors de l'événement de partage de technologie [T·TALK] du 21 juillet, nous avons spécialement invité M. Xiong Ying, ingénieur en algorithmes ByteDance et développeur principal de LightSeq, à être l'invité dans la salle de diffusion en direct pour révéler l'inférence de formation haute performance. de ByteDance au public. Principes techniques et détails pratiques du moteur LightSeq. Que vous soyez un praticien de l'industrie de l'algorithme ou un développeur désireux d'étudier la technologie de l'IA, je pense que vous pouvez acquérir une expérience technique unique et une inspiration innovante grâce à ce partage.
Bienvenue à tous pour participer au 12ème événement de partage technologique de [T·TALK] le 21 juillet à 20h00
Scannez le code QR sous l'afficheprenez rendez-vous pour regarder
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!