Maison  >  Article  >  Périphériques technologiques  >  Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

WBOY
WBOYavant
2023-09-20 15:49:01784parcourir
Les modèles de langage à grande échelle (LLM), y compris les structures de décodeur uniquement (telles que les familles de modèles GPT et LAMA), les structures de codeur uniquement (telles que BERT) et les structures de codeur-décodeur (telles que T5) et leurs variantes de modèles ont été Il a obtenu un succès remarquable et a été largement utilisé dans divers traitements linguistiques et tâches multimodales.

Malgré ce succès, le coût de la formation LLM est encore si élevé que seules quelques entreprises peuvent assumer ses frais de formation. De plus, les tendances actuelles indiquent que des données de formation plus volumineuses seront utilisées à l'avenir, ce qui augmentera encore le coût de développement des grands modèles. Par exemple, la formation LLLAMA-1 utilise des jetons de 1 à 1,4 To, tandis que Llama 2 atteint 2 To.

Un autre défi clé dans le développement du LLM est l'évaluation. Les méthodes d'évaluation traditionnelles sont divisées en deux catégories : l'évaluation des connaissances (MMLU et C-Eval) et l'évaluation des tâches PNL. Ces méthodes d'évaluation peuvent ne pas refléter véritablement les capacités du modèle car il peut y avoir des problèmes de fuite de données, c'est-à-dire que certaines parties de l'ensemble de données d'évaluation peuvent avoir été utilisées pendant le processus de formation du modèle. En outre, les méthodes d’évaluation axées sur les connaissances peuvent ne pas être adéquates pour évaluer les niveaux d’intelligence. Une méthode d'évaluation plus juste et objective consiste à mesurer le quotient intellectuel (QI) du LLM, ce qui consiste à généraliser le LLM à des conditions et des contextes non visibles dans les données de formation.

Stratégie de croissance. Afin de résoudre le problème des coûts de formation, de nombreuses institutions telles que l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin et l'Institut de technologie informatique de l'Académie chinoise des sciences ont récemment fait quelques tentatives : former un LLM au niveau de 100 milliards de paramètres grâce à une stratégie de croissance pour le première fois. La croissance signifie que le nombre de paramètres pendant la formation n'est pas fixe, mais s'étend des modèles plus petits aux modèles plus grands.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

  • Papier : https://arxiv.org/pdf/2309.03852.pdf

  • Le contenu qui doit être réécrit est : Lien du modèle : https://huggingface.co/CofeAI/FLM- 101B

La figure 1 montre trois scénarios typiques de stratégies de croissance. Étant donné que les FLOP d'un LLM sont à peu près proportionnels au nombre de ses paramètres, la zone entre la courbe de changement des paramètres du modèle et l'axe X peut représenter le coût de calcul de la formation.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né


La figure 1 (a) montre la stratégie de formation standard sans croissance du modèle ; 1 (b) est une stratégie de croissance linéaire, qui peut économiser 50 % du coût ; 1 (c) est une stratégie de croissance modérée, qui permet d'économiser moins ; plus de 50 % des coûts ; 1 (d) est une stratégie de croissance radicale qui peut permettre d’économiser plus de 50 % des coûts. Cette analyse montre que pour économiser autant que possible les coûts informatiques, une stratégie de croissance agressive doit être adoptée.

La conception de l'opérateur de croissance de cette nouvelle étude s'inspire du MSG dans l'article "Pré-formation du modèle de langage 2x plus rapide via une croissance structurelle masquée", qui est un ensemble complet d'opérations couvrant les quatre transformateurs. dimension de croissance de la structure. Plus important encore, MSG peut se développer tout en préservant étroitement ses fonctionnalités. Par conséquent, même si un petit modèle peut apprendre rapidement avec un espace de recherche de paramètres plus petit, ses connaissances peuvent être héritées par des modèles plus grands ultérieurs. Cela permet aux stratégies de croissance d’obtenir de meilleures performances avec un coût de calcul identique ou inférieur.

Modèle open source FLM-101B. Les chercheurs de l'Institut de recherche Zhiyuan ont formé un modèle LLM avec 101 milliards de paramètres grâce à une croissance progressive, et ils ont également déclaré qu'ils publieraient le modèle en open source. L'architecture de ce modèle est une évolution de FreeLM. C’est pourquoi les chercheurs l’ont nommé FLM-101B, où F signifie Free.

Le framework FreeLM a deux objectifs de pré-formation, qui sont guidés respectivement par les signaux du langage et les signaux de l'enseignant. Dans cette nouvelle recherche, ces deux objectifs sont unifiés dans un paradigme commun de modélisation du langage.

Référence d'évaluation du QI. En plus du paradigme de formation à faible coût, l'équipe a également apporté une autre contribution en proposant un ensemble systématique de critères de référence pour l'évaluation du quotient intellectuel (QI) de LLM.

Des recherches antérieures ont montré que bien que l'indicateur de niveau de perplexité (PPL) puisse refléter dans une certaine mesure la qualité du texte généré, il n'est pas fiable. D'un autre côté, l'échelle des données de formation LLM est si grande qu'il nous est difficile de distinguer si le modèle cite simplement des données de connaissances ou s'il atteint réellement des capacités de raisonnement, d'analyse et de généralisation de type humain, qui sont sur quoi cette étude définit la base du QI. Certaines mesures d'évaluation couramment utilisées (MMLU pour l'anglais et C-Eval pour le chinois) sont évidemment axées sur les connaissances et ne peuvent pas refléter pleinement le niveau d'intelligence du modèle.

Pour un contrôle d’intégrité, l’équipe a effectué un test : cinq chercheurs en informatique issus d’universités de renommée mondiale ont passé un examen en utilisant les questions du test de chimie de C-Eval. Il s’est avéré que leur précision était presque aussi bonne qu’une estimation aléatoire, car la plupart des volontaires avaient oublié ce qu’ils avaient appris sur la chimie. Par conséquent, les critères d'évaluation qui mettent l'accent sur la connaissance de l'expertise ne constituent pas des mesures adéquates du QI d'un modèle.

Pour mesurer de manière globale le QI de LLM, l'équipe a développé un référentiel d'évaluation du QI qui prend en compte quatre aspects clés du QI : la cartographie des symboles, la compréhension des règles, l'exploration de modèles et la résistance aux interférences.
  • Le langage est de nature symbolique. Certaines études ont utilisé des symboles plutôt que des étiquettes de catégories pour évaluer le niveau d'intelligence des LLM. De même, l'équipe a utilisé une approche de cartographie symbolique pour tester la capacité du LLM à généraliser à des contextes invisibles.

  • Une capacité importante de l'intelligence humaine est de comprendre des règles données et de prendre les mesures correspondantes. Cette méthode de test a été largement utilisée à différents niveaux de tests. Par conséquent, la compréhension des règles devient ici le deuxième test.

  • Contenu réécrit : L'exploration de modèles est une partie importante de l'intelligence, qui implique l'induction et la déduction. Dans l’histoire du développement scientifique, cette méthode joue un rôle crucial. De plus, les questions des tests dans divers concours nécessitent souvent cette capacité à répondre. Pour ces raisons, nous avons choisi le pattern mining comme troisième indicateur d'évaluation

  • Le dernier et très important indicateur est la capacité anti-interférence, qui est également l'une des capacités fondamentales du renseignement. Des études ont montré que le langage et les images sont facilement perturbés par le bruit. Dans cette optique, l’équipe a utilisé l’immunité aux interférences comme mesure d’évaluation finale.

Bien sûr, ces quatre indicateurs ne constituent en aucun cas le dernier mot dans l'évaluation du LLM IQ, mais ils peuvent servir de point de départ pour stimuler le développement de la recherche ultérieure et devraient éventuellement conduire à un cadre complet d'évaluation du LLM IQ.

Les principales contributions de cette étude comprennent :
  • Le chercheur a déclaré qu'il s'agit d'une tentative de recherche LLM visant à entraîner plus de 100 milliards de paramètres à partir de zéro en utilisant une stratégie de croissance. Dans le même temps, il s'agit également du modèle à 100 milliards de paramètres le moins coûteux actuellement, ne coûtant que 100 000 dollars américains

  • En améliorant les objectifs de formation FreeLM, les méthodes potentielles de recherche d'hyperparamètres et la croissance préservant les fonctions, cette recherche résout le problème d'instabilité. Les chercheurs pensent que cette méthode peut également aider la communauté de recherche scientifique au sens large.

  • Les chercheurs ont également effectué des comparaisons expérimentales du nouveau modèle avec des modèles auparavant puissants, notamment en utilisant des références axées sur les connaissances et une nouvelle référence d'évaluation systématique du QI. Les résultats expérimentaux montrent que le modèle FLM-101B est compétitif et robuste

  • L'équipe publiera des modèles de points de contrôle, du code, des outils associés, etc. pour promouvoir la recherche et le développement de LLM bilingues en chinois et en anglais avec une échelle de 100 milliards de paramètres.

Aperçu de la conception du FLM-101B

Architecturalement, le FLM-101B utilise FreeLM comme réseau fédérateur et intègre xPos. En termes de taille de modèle, grâce à la nouvelle stratégie de croissance, les chercheurs peuvent obtenir des modèles de trois tailles : 16B, 51B et 101B en une seule formation.

Quant aux paramètres de pré-entraînement, le FLM-101B hérite de la stratégie d'entraînement de FreeLM.

En termes de stratégie de croissance, contrairement à la pratique courante consistant à former indépendamment des modèles de différentes tailles, l'équipe peut former séquentiellement trois modèles avec les paramètres 16B, 51B et 101B, où chaque modèle hérite de la plus grande taille de son précédent. un. Connaissance des petits modèles.

En ce qui concerne le matériel de formation, un cluster de 24 serveurs GPU DGX-A800 (8 × 80G) est utilisé ; le temps de formation du FLM-101B est inférieur à 26 jours. Pour des stratégies et des configurations de modèles plus parallèles, veuillez. se référer au tableau ci-dessous 1 et 2.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Stabilité d'entraînement du FLM-101B

Afin de résoudre les problèmes instables tels que la divergence des pertes et l'explosion du gradient, les chercheurs ont proposé une solution prometteuse, qui est brièvement décrite comme suit.

Prédiction des pertes. La méthode nouvellement proposée pour atteindre la stabilité de l'entraînement est la suivante :

Tout d'abord, déterminez la distribution des données avant de commencer l'entraînement FLM-16B.

Ensuite, effectuez une recherche de grille sur trois hyperparamètres, notamment le taux d'apprentissage, l'écart type d'initialisation et la température softmax de la couche de sortie. La recherche dans la grille est effectuée en exécutant un modèle de substitution avec une dimension d'état caché (c'est-à-dire la largeur du modèle) de 256, un nombre d'effectifs de 2 et un nombre de paramètres de 40 millions. Tous les autres hyperparamètres structurels et données d'entraînement de ce modèle de substitution sont les mêmes que ceux du FLM-16B. En utilisant le parallélisme des données sur 6 nœuds, une recherche sur grille a duré 24,6 heures, ce qui correspond approximativement à 6 heures avec une configuration à 24 nœuds.

Grâce à cette recherche sur grille, les chercheurs ont trouvé les hyperparamètres optimaux : taux d'apprentissage = 4e-4, écart type = 1,6e-2, température softmax = 2,0.

Ensuite, ils migrent ces hyperparamètres via µP pour obtenir une expérience de formation transparente qui évite les problèmes d'instabilité. Lorsque MSG est utilisé en combinaison, LM-51B et FLM-101B ne présentent pas de problèmes de divergence de croissance ultérieurs.

La figure 2 montre la courbe complète de perte d'entraînement.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Précision mixte via Bfloat16. Le but de l'utilisation d'une précision mixte est d'économiser de la mémoire et du temps pendant l'exécution. Ici, ils ont choisi Bfloat16.
Évaluation de référence

Le tableau 3 compare les performances du FLM-101B avec d'autres modèles de référence puissants (modèles de la série LLAMA et GLM-130B).

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Les chercheurs ont déclaré que ces résultats montrent que le FLM-101B n'a aucun avantage en termes de connaissances factuelles et que si davantage de données de formation peuvent être utilisées, ses performances continueront de s'améliorer.

Le tableau 4 montre les résultats de l'eFLM-16B par rapport au modèle de base en termes d'évaluation de l'expertise.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Il s'avère que les scores sur les ensembles de données qui mettent l'accent sur l'expertise ne reflètent pas le niveau d'intelligence du LLM, car certaines données de formation spécifiques peuvent avoir une contribution écrasante.

Le tableau 5 montre les performances de chaque étape du modèle FLM.

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Comme prévu, les performances de FLM s'amélioreront à mesure que le modèle augmente. Le FLM-101B a obtenu les meilleurs résultats dans presque toutes les missions. Cela signifie qu’à chaque fois que le modèle grandit, il hérite des connaissances de l’étape précédente.
Expérience IQ

Dans l'expérience, afin de mener une évaluation plus systématique du QI de LLM, l'équipe de l'Intelligent Source Research Institute a utilisé des ensembles de données existants liés au QI et a fait avec certains éléments nécessaires modifications, ils ont également généré de nouvelles données synthétiques.

Plus précisément, l'évaluation du QI qu'ils ont proposée prend principalement en compte quatre aspects : la cartographie des symboles, la compréhension des règles, l'exploration de modèles et l'anti-interférence. Ces tâches ont un point commun : elles reposent toutes sur le raisonnement et la généralisation dans de nouveaux contextes.

Les tableaux suivants montrent les résultats de l'expérience de QI :

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

Avec 100 000 dollars américains + 26 jours, un LLM low-cost avec 100 milliards de paramètres est né

À partir de ces tableaux, sur ces quatre critères d'évaluation du QI, le FLM-101B a un coût de calcul beaucoup plus faible pour obtenir des résultats qui sont comparables au GPT-3 et meilleurs que le GLM-130B.

En plus de l'influence des données de formation, les chercheurs spéculent que cet avantage peut être dû au petit modèle au début qui affine l'espace de recherche plus petit lorsque le modèle devient de plus en plus large et que la capacité de généralisation est. amélioré, cet avantage continue de jouer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer