Maison  >  Article  >  Périphériques technologiques  >  Lao Huang donne un coup de pouce au H100 : Nvidia lance un package d'accélération pour grands modèles, doublant la vitesse d'inférence de Llama2

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package d'accélération pour grands modèles, doublant la vitesse d'inférence de Llama2

WBOY
WBOYavant
2023-09-18 15:45:07978parcourir

La vitesse d'inférence des grands modèles a doublé en seulement un mois !

Récemment, NVIDIA a annoncé le lancement d'un « package de sang de poulet » spécialement conçu pour le H100, visant à accélérer le processus d'inférence LLM

Peut-être que maintenant vous n'aurez plus à attendre que le GH200 soit livré l'année prochaineLao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2.

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

La puissance de calcul du GPU a toujours affecté les performances des grands modèles. Les fournisseurs de matériel et les utilisateurs espèrent obtenir des vitesses de calcul plus rapides.

En tant que plus grand fournisseur de matériel derrière les grands modèles, NVIDIA a étudié comment matérielr. accélérer les grands modèles.

Grâce à une coopération avec un certain nombre de sociétés d'IA, NVIDIA a finalement lancé le programme d'optimisation d'inférence de grands modèles TensorRT-LLM (provisoirement appelé TensorRT).

TensorRT peut non seulement doubler la vitesse d'inférence des grands modèles, mais est également très pratique à utiliser.

Pas besoin d'avoir une connaissance approfondie de C++ et de CUDA, vous pouvez rapidement personnaliser les stratégies d'optimisation et exécuter de grands modèles plus rapidement sur H100.

Le scientifique de NVIDIA, Jim Fan, a retweeté et commenté que « un autre avantage » de NVIDIA est le logiciel de support qui peut maximiser l'utilisation des performances du GPU.

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

NVIDIA injecte une nouvelle vitalité dans ses produits grâce à des logiciels, tout comme elle met en œuvre le dicton de Lao Huang « plus vous achetez, plus vous économisez ». Cependant, cela n'empêche pas certains de penser que le prix du produit est trop élevé

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

En plus du prix, certains internautes ont également remis en question ses résultats d'exploitation :

On voit toujours combien de fois les performances sont améliorées (dans la publicité), mais lorsque j'exécute moi-même Llama 2, je ne peux toujours traiter que des dizaines de jetons par seconde.

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

Pour TensorRT, nous avons besoin de tests supplémentaires pour déterminer s'il est vraiment efficace. Examinons d'abord de plus près TensorRT

Doublez la vitesse d'inférence des grands modèles

TensorRT-LLM optimisé H100 Quelle est la vitesse d'exécution de grands modèles ?

L'annonce de Nvidia fournit des données pour deux modèles, Llama 2 et GPT-J-6B.

Sur le H100 optimisé, la vitesse d'inférence de Llama 2 est 4,6 fois celle de l'A100 et 1,77 fois celle du H100 non optimisé en août

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

Et la vitesse d'inférence de GPT-J-6B est A100 8 fois celle de la version précédente et 2 fois celle de la version non optimisée d'août.

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

TensorRT fournit également une API Python modulaire open source qui peut rapidement personnaliser les solutions d'optimisation en fonction des différentes exigences LLM

Cette API intègre un compilateur d'apprentissage en profondeur, l'optimisation du noyau, des fonctions de pré/post-traitement et de communication multi-nœuds .

Il existe également des versions personnalisées pour les modèles courants tels que GPT(2/3) et Llama, qui peuvent être utilisées "prêtes à l'emploi".

Grâce au dernier noyau d'IA open source de TensorRT, les développeurs peuvent également optimiser le modèle lui-même, y compris l'algorithme d'attention FlashAttention, qui accélère considérablement Transformer.

TensorRT est un moteur d'inférence hautes performances pour optimiser l'inférence du deep learning. Il optimise la vitesse d'inférence LLM en utilisant des technologies telles que le calcul à précision mixte, l'optimisation de graphiques dynamiques et la fusion de couches. Plus précisément, TensorRT améliore la vitesse d'inférence en réduisant la quantité de calcul et les besoins en bande passante mémoire en convertissant les calculs à virgule flottante en calculs à virgule flottante demi-précision. De plus, TensorRT utilise également une technologie d'optimisation de graphiques dynamiques pour sélectionner dynamiquement la structure de réseau optimale en fonction des caractéristiques des données d'entrée, améliorant ainsi encore la vitesse d'inférence. De plus, TensorRT utilise également la technologie de fusion de couches pour fusionner plusieurs couches informatiques en une couche informatique plus efficace, réduisant ainsi les frais de calcul et d'accès à la mémoire et améliorant encore la vitesse d'inférence. En bref, TensorRT a considérablement amélioré la vitesse et l'efficacité de l'inférence LLM grâce à une variété de technologies d'optimisation

Tout d'abord, il bénéficie de TensorRToptimisant la méthode de travail collaboratif multi-nœuds.

Un modèle énorme comme Llama ne peut pas être exécuté sur une seule carte. Il nécessite plusieurs GPU pour fonctionner ensemble.

Dans le passé, ce travail nécessitait de démonter manuellement le modèle pour le réaliser.

Avec TensorRT, le système peut automatiquement diviser le modèle et l'exécuter efficacement sur plusieurs GPU via NVLink

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

Deuxièmement, TensorRT utilise également une planification optimisée appelée technologie Dynamic Batch Processing.

Pendant le processus d'inférence, LLM procède en exécutant plusieurs fois des itérations du modèle

La technologie de traitement par lots dynamique exécutera immédiatement la séquence terminée au lieu d'attendre que l'ensemble du lot de tâches soit terminé avant de traiter l'ensemble de requêtes suivant.

Dans des tests réels, la technologie de traitement par lots dynamique a réussi à réduire de moitié le débit des requêtes GPU de LLM, réduisant ainsi considérablement les coûts de fonctionnement

Un autre point clé est la conversion de nombres à virgule flottante de précision 16 bits en précision 8 bits , réduisant ainsi la consommation de mémoire.

Par rapport au FP16 en phase de formation, le FP8 consomme moins de ressources et est plus précis que l'INT-8. Il peut améliorer les performances sans affecter la précision du modèle.

En utilisant le moteur Hopper Transformer, le système terminera automatiquement le FP16. vers la compilation de conversion FP8 sans modifier manuellement aucun code dans le modèle

Actuellement, la version anticipée de TensorRT-LLM est disponible en téléchargement, et la version officielle sera lancée et intégrée au framework NeMo dans quelques semaines

One More Chose

Chaque fois qu'un grand événement survient, la figure de "Leewenhoek" est indispensable.

Dans l'annonce de Nvidia, il a mentionné la coopération avec des sociétés d'intelligence artificielle de premier plan telles que Meta, mais n'a pas mentionné OpenAI

À partir de cette annonce, certains internautes ont découvert ce point et l'ont publié sur le forum OpenAI :

S'il vous plaît, laissez-moi voir qui n'a pas été repéré par Lao Huang (tête de chien manuelle)

Lao Huang donne un coup de pouce au H100 : Nvidia lance un package daccélération pour grands modèles, doublant la vitesse dinférence de Llama2

Quel genre de "surprise" pensez-vous que Lao Huang nous apportera ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer