Maison  >  Article  >  NVIDIA dévoile Llama 3.1-Nemotron-51B : un bond en avant en termes de précision et d'efficacité

NVIDIA dévoile Llama 3.1-Nemotron-51B : un bond en avant en termes de précision et d'efficacité

Barbara Streisand
Barbara Streisandoriginal
2024-09-24 21:17:15468parcourir

Le Llama 3.1-Nemotron-51B de NVIDIA établit de nouvelles références en matière d'IA avec une précision et une efficacité supérieures, permettant des charges de travail élevées sur un seul GPU.

NVIDIA dévoile Llama 3.1-Nemotron-51B : un bond en avant en termes de précision et d'efficacité

Le dernier modèle de langage de NVIDIA, Llama 3.1-Nemotron-51B, établit de nouvelles normes en matière de performances d'IA avec une précision et une efficacité exceptionnelles. Ce modèle marque une avancée dans la mise à l'échelle des LLM pour les adapter à un seul GPU, même sous des charges de travail élevées.

NVIDIA a dévoilé un nouveau modèle de langage, baptisé Llama 3.1-Nemotron-51B, promettant un bond en avant dans les performances de l'IA avec une précision et une efficacité supérieures. Ce modèle est dérivé du Llama-3.1-70B de Meta et exploite une nouvelle approche de recherche d'architecture neuronale (NAS) pour optimiser à la fois la précision et l'efficacité. Remarquablement, ce modèle peut s'adapter à un seul GPU NVIDIA H100, même sous des charges de travail élevées, ce qui le rend plus accessible et plus rentable.

Le modèle Llama 3.1-Nemotron-51B offre des vitesses d'inférence 2,2 fois plus rapides tout en conservant un niveau de précision presque identique à celui de ses prédécesseurs. Cette efficacité permet des charges de travail 4 fois plus importantes sur un seul GPU pendant l'inférence, grâce à son empreinte mémoire réduite et à son architecture optimisée.

L'un des défis liés à l'adoption de grands modèles linguistiques (LLM) est leur coût d'inférence élevé. Le modèle Llama 3.1-Nemotron-51B répond à ce problème en offrant un compromis équilibré entre précision et efficacité, ce qui en fait une solution rentable pour diverses applications, allant des systèmes de périphérie aux centres de données cloud. Cette fonctionnalité est particulièrement utile pour déployer plusieurs modèles via des plans Kubernetes et NIM.

Le modèle Nemotron est optimisé avec les moteurs TensorRT-LLM pour des performances d'inférence plus élevées et présenté sous la forme d'un microservice d'inférence NVIDIA NIM. Cette configuration simplifie et accélère le déploiement de modèles d'IA génératifs sur l'infrastructure accélérée de NVIDIA, y compris le cloud, les centres de données et les postes de travail.

Le modèle Llama 3.1-Nemotron-51B-Instruct a été construit à l'aide d'une technologie NAS efficace et de méthodes de formation, qui permettent la création de modèles de transformateurs non standard optimisés pour des GPU spécifiques. Cette approche comprend un cadre de distillation par blocs pour entraîner diverses variantes de blocs en parallèle, garantissant ainsi une inférence efficace et précise.

L'approche NAS de NVIDIA permet aux utilisateurs de sélectionner leur équilibre optimal entre précision et efficacité. Par exemple, la variante Llama-3.1-Nemotron-40B-Instruct a été créée pour donner la priorité à la vitesse et au coût, atteignant une augmentation de vitesse de 3,2 fois par rapport au modèle parent avec une diminution modérée de la précision.

Le modèle Llama 3.1-Nemotron-51B-Instruct a été comparé à plusieurs normes industrielles, démontrant ses performances supérieures dans divers scénarios. Il double le débit du modèle de référence, ce qui le rend rentable dans plusieurs cas d'utilisation.

Le modèle Llama 3.1-Nemotron-51B-Instruct offre un nouvel ensemble de possibilités aux utilisateurs et aux entreprises pour exploiter des modèles de fondation très précis de manière rentable. Son équilibre entre précision et efficacité en fait une option attractive pour les constructeurs et met en avant l’efficacité de l’approche NAS, que NVIDIA ambitionne d’étendre à d’autres modèles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn