Maison >Périphériques technologiques >IA >Le modèle universel open source le plus puissant de NVIDIA, Nemotron-4 340B

Le modèle universel open source le plus puissant de NVIDIA, Nemotron-4 340B

PHPzoriginal: 2024-06-16 22:32:02820parcourir

Les performances surpassent Llama-3, principalement utilisé pour les données synthétiques.

Le grand modèle général de NVIDIA, Nemotron, a open source la dernière version de 340 milliards de paramètres.

Ce vendredi, NVIDIA a annoncé le lancement du Nemotron-4 340B. Il contient une série de modèles ouverts que les développeurs peuvent utiliser pour générer des données synthétiques afin de former des modèles de langage étendus (LLM), qui peuvent être utilisés pour des applications commerciales dans tous les secteurs tels que la santé, la finance, la fabrication et la vente au détail.

Des données de formation de haute qualité jouent un rôle essentiel dans la réactivité, la précision et la qualité des LLM personnalisés, mais les ensembles de données puissants sont souvent coûteux et inaccessibles. Grâce à une licence de modèle ouvert unique, Nemotron-4 340B offre aux développeurs un moyen gratuit et évolutif de générer des données synthétiques pour aider les utilisateurs à créer de puissants LLM.

La série Nemotron-4 340B comprend des modèles Base, Instruct et Reward, qui forment un pipeline pour générer des données synthétiques pour la formation et l'amélioration du LLM. Ces modèles sont optimisés pour une utilisation avec NVIDIA NeMo, un framework open source pour la formation de modèles de bout en bout, y compris la gestion, la personnalisation et l'évaluation des données. Ils sont également optimisés pour l'inférence avec la bibliothèque open source NVIDIA TensorRT-LLM.

Nvidia indique que le Nemotron-4 340B est désormais disponible en téléchargement sur Hugging Face. Les développeurs pourront bientôt accéder à ces modèles sur ai.nvidia.com, où ils seront regroupés sous forme de microservices NVIDIA NIM avec des interfaces de programmation d'applications standard pouvant être déployées n'importe où.

Hugging Face Télécharger : https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911

Naviguez dans Nemotron pour générer des données synthétiques

Les grands modèles linguistiques peuvent Aide les développeurs à générer des données de formation synthétiques sans accéder à des ensembles de données étiquetés volumineux et diversifiés.

Le modèle Nemotron-4 340B Instruct crée diverses données synthétiques qui imitent les caractéristiques des données du monde réel, contribuant ainsi à améliorer la qualité des données et ainsi à améliorer les performances et la robustesse des LLM personnalisés dans divers domaines.

Pour améliorer la qualité des données générées par l'IA, les développeurs peuvent utiliser le modèle de récompense Nemotron-4 340B pour filtrer les réponses de haute qualité. Nemotron-4 340B Reward évalue les réponses en fonction de cinq attributs : la convivialité, l'exactitude, la cohérence, la complexité et la verbosité. Il se classe actuellement n°1 dans le classement Hugging Face RewardBench créé par AI2, qui évalue la puissance, la sécurité et les défauts des modèles de récompense.

^{Dans ce pipeline de données synthétiques, (1) le modèle Nemotron-4 340B Instruct est utilisé pour générer une sortie synthétique basée sur du texte. Ensuite, le modèle d'évaluation (2) Nemotron-4 340B Reward évalue le texte généré et fournit des commentaires pour guider les améliorations itératives et garantir l'exactitude des données synthétisées.}

Les chercheurs peuvent également personnaliser le modèle de base du Nemotron-4 340B en utilisant leurs propres données propriétaires, combinées à l'ensemble de données HelpSteer2 inclus, pour créer leur propre modèle d'instruction ou modèle de récompense.

^{Adresse papier : https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf}

Introduction à la méthode

L'architecture du modèle Nemotron-4-340B-Base est un Une architecture Transformer standard réservée au décodeur avec des masques d'attention causale, une intégration de position pivotée (RoPE), un tokenizer SentencePièce, et bien plus encore. Les hyperparamètres du Nemotron-4-340B-Base sont présentés dans le tableau 1. Il contient 9,4 milliards de paramètres intégrés et 331,6 milliards de paramètres non intégrés.

Le tableau suivant présente quelques détails de formation du modèle Nemotron-4-340B-Base. Le tableau résume les 3 étapes du gradient de taille de lot, y compris le temps de chaque itération et l'utilisation du FLOP/s du modèle.

Pour développer de puissants modèles de récompense, NVIDIA a collecté un ensemble de données de 10 000 données sur les préférences humaines appelé HelpSteer2 et l'a rendu public.

Adresse de l'ensemble de données : https://huggingface.co/datasets/nvidia/HelpSteer2

Le modèle de récompense de régression Nemotron-4-340B-Reward est construit sur le modèle Nemotron-4-340B-Base. Et remplacez la dernière couche softmax par le nouvel en-tête de récompense. Cet en-tête est une projection linéaire qui mappe l'état caché de la dernière couche dans un vecteur à cinq dimensions de propriétés HelpSteer (utilité, exactitude, cohérence, complexité, verbosité). Au cours du processus d'inférence, ces valeurs d'attribut peuvent être regroupées en une récompense globale via une somme pondérée. Ce mode bonus fournit une base solide pour la formation du Nemotron-4-340B-Instruct.

L'étude a révélé qu'un tel modèle fonctionnait très bien sur RewardBench :

Affiné avec NeMo et inférence optimisée avec TensorRT-LLM

Utilisation de l'open source NVIDIA NeMo et NVIDIA TensorRT -LLM, les développeurs peuvent optimiser l'efficacité de leurs modèles d'orientation et de récompense pour générer des données synthétiques et noter les réponses.

Tous les modèles Nemotron-4 340B sont optimisés à l'aide de TensorRT-LLM pour tirer parti du parallélisme tensoriel, un type de parallélisme de modèle dans lequel une matrice de poids unique est répartie sur plusieurs GPU et serveurs pour obtenir une inférence efficace à grande échelle.

La base Nemotron-4 340B est formée sur 9 billions de jetons et peut être personnalisée à l'aide du framework NeMo pour s'adapter à des cas d'utilisation ou des domaines spécifiques. Ce processus de réglage fin bénéficie de grandes quantités de données de pré-formation et fournit des résultats plus précis pour des tâches spécifiques en aval.

Parmi elles, le framework NeMo fournit une variété de méthodes de personnalisation, notamment des méthodes de réglage fin supervisé et de réglage fin efficaces en termes de paramètres, telles que l'adaptation de bas rang (LoRA).

Pour améliorer la qualité des modèles, les développeurs peuvent aligner leurs modèles à l'aide de NeMo Aligner et des ensembles de données annotés par Nemotron-4 340B Reward. L'alignement est une étape critique dans la formation de grands modèles de langage, où le comportement du modèle est affiné à l'aide d'algorithmes tels que RLHF pour garantir que sa sortie est sûre, précise, contextuelle et cohérente avec ses objectifs déclarés.

Les entreprises à la recherche d'un support de niveau entreprise et d'environnements de production sécurisés peuvent également accéder à NeMo et TensorRT-LLM via la plate-forme logicielle cloud native NVIDIA AI Enterprise. La plateforme fournit un environnement d'exécution accéléré et efficace pour les modèles de base d'IA générative.

Données d'évaluation

La figure 1 met en évidence la précision de la famille de modèles Nemotron-4 340B sur des missions sélectionnées. Plus précisément :

Nemotron-4-340B-Base est comparable aux modèles de base en libre accès tels que Llama-3 70B, Mixtral 8x22B et Qwen-2 72B sur des tâches de raisonnement de bon sens telles que ARC-Challenge, MMLU et BigBench Hard. références comparables.

En termes de suivi des instructions et de capacités de chat, Nemotron-4-340B-Instruct surpasse les modèles d'instructions correspondants. Nemotron-4-340B Reward atteint la plus haute précision sur RewardBench, surpassant même les modèles propriétaires tels que GPT-4o-0513 et Gemini 1.5 Pro-0514.

Après le lancement du Nemotron-4-340B, la plateforme d'évaluation a immédiatement publié ses résultats de référence. On peut voir que ses résultats ont dépassé Llama-3-70b dans des tests de référence difficiles tels que Arena-Hard-Auto

Cela signifie-t-il qu'un nouveau modèle, le plus puissant de l'industrie, a émergé ?

^{Lien de référence :}

^{https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/}

^{https : //x.com/lmsysorg/status/1801682893988892716}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 Token auto 接口算法 transformer https gpt llama

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：La conclusion finale de l'article ACL 2024 : grand modèle de langage ≠ simulateur de monde, Yann LeCun : C'est tellement vraiArticle suivant：La conclusion finale de l'article ACL 2024 : grand modèle de langage ≠ simulateur de monde, Yann LeCun : C'est tellement vrai

Articles Liés

Voir plus