Maison  >  Article  >  Périphériques technologiques  >  Les différents ensembles de données ont-ils des lois d'échelle différentes ? Et vous pouvez le prédire avec un algorithme de compression

Les différents ensembles de données ont-ils des lois d'échelle différentes ? Et vous pouvez le prédire avec un algorithme de compression

WBOY
WBOYoriginal
2024-06-07 17:51:01592parcourir

De manière générale, plus il faut de calculs pour entraîner un réseau de neurones, meilleures sont ses performances. Lors de la mise à l'échelle d'un calcul, une décision doit être prise : augmenter le nombre de paramètres du modèle ou augmenter la taille de l'ensemble de données ; les deux facteurs doivent être pris en compte dans un budget de calcul fixe. L'avantage de l'augmentation du nombre de paramètres du modèle est que cela peut améliorer la complexité et la capacité d'expression du modèle, permettant ainsi de mieux ajuster les données d'entraînement. Cependant, un trop grand nombre de paramètres peut conduire à un surajustement, ce qui rend le modèle peu performant sur des données invisibles. D’un autre côté, l’augmentation de la taille de l’ensemble de données peut améliorer la capacité de généralisation du modèle et réduire les problèmes de surajustement.

Nous vous le disons : tant que les paramètres et les données peuvent être alloués de manière appropriée, les performances peuvent être maximisées avec un budget informatique fixe. De nombreuses études antérieures ont exploré la loi d'échelle des modèles de langage neuronal, et ces études ont généralement conclu que les paramètres et le nombre de jetons d'entraînement devaient être étendus un à un.

Cependant, la recherche précédente sur la loi de mise à l'échelle du modèle de langage était basée sur un transformateur formé sur du texte de réseau dispersé. Il s’agit d’une distribution de données très spécifique, nous nous demandons donc naturellement : la loi d’échelle obtenue sur la base d’un tel ensemble de données de texte Web peut-elle être généralisée à d’autres distributions ?

En plus du modèle de langage actuel (c'est-à-dire Chinchilla) qui ne concerne que le cas spécifique des données textuelles du réseau, il existe une loi d'échelle plus large basée sur les attributs des données d'entraînement. Étant donné que l’amélioration de la qualité des données peut améliorer considérablement les performances des modèles de langage, la loi d’échelle de l’apprentissage par renforcement peut évoluer avec l’intensité du jeu. Peut-être pouvons-nous supposer que la loi de mise à l'échelle du modèle de langage actuel (c'est-à-dire Chinchilla) ne concerne que le cas spécifique des données textuelles du réseau, et derrière elle se cache une loi de mise à l'échelle plus large basée sur les attributs des données d'entraînement.

Alors, quelles propriétés de l'ensemble de données de séquence de jetons utilisé pour la formation sont sensibles à la loi d'échelle neuronale ? En d’autres termes, si nous voulons prédire avec précision comment allouer au mieux le calcul au processus de formation, quelles propriétés des données devons-nous observer ? En outre, la nature dépendante des données de la loi d’échelle n’est-elle qu’une question théorique, ou est-elle également importante pour les ensembles de données du monde réel ?

Afin d'explorer ces questions, Rohan Pandey, chercheur à la société de données d'IA Reworkd, a fait quelques recherches et a obtenu les réponses à ces questions. De plus, il a également proposé un algorithme de compression gzip, qui peut prédire ; l'impact de la complexité des données sur les propriétés d'expansion.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

  • Titre de l'article : gzip prédit les lois de mise à l'échelle dépendantes des données
  • Lien de l'article : https://arxiv.org/pdf/2405.16684

Sa méthode de recherche est la suivante : elle peut être intuitive Dans le cadre de données textuelles qui contrôlent la complexité, nous utilisons des méthodes de théorie de l'information pour comprendre les raisons de la dépendance aux données de la loi d'échelle.

Le cadre qu'il a finalement trouvé s'appelle Probabilistic Context-Free Grammar (PCFG, proposé pour la première fois par Chomsky en 1956). Ce paramètre est relativement naturel (peut modéliser le langage naturel, le code, etc.), a une complexité syntaxique contrôlable et suit certains principes bien compris de la théorie de l'information.

Dans l'expérience, en ajustant les propriétés syntaxiques de PCFG, il a généré 6 ensembles de données de complexités différentes. Pour chaque ensemble de données, il a formé 6 modèles de langage de différentes tailles (paramètres de 4,4 M à 1,4 B) et a enregistré les résultats de ces modèles de langage sous 6 étapes de formation différentes (100 000 à 100 M de jetons). Il a ensuite adapté une loi d'échelle à chaque ensemble de données et a constaté que les paramètres de la loi d'échelle variaient de manière significative en fonction de la complexité syntaxique. Suite à des travaux antérieurs sur l'entropie dans les grammaires formelles, pour la métrique de complexité, il a utilisé la compressibilité médiane de chaque séquence de jetons dans l'ensemble de données, qui peut être facilement calculée à l'aide de gzip.

Il a été constaté qu'à mesure que la compressibilité des données d'entraînement diminue (plus complexe), la limite optimale du calcul de la loi d'échelle se déplacera progressivement de la quantité de paramètres à la taille des données. Il a ensuite mesuré la compressibilité du code du monde réel et des ensembles de données en langage naturel et a découvert que le premier était plus compressible et devait donc obéir à des lois d'échelle différentes.

Ajustez la complexité des données grâce aux propriétés syntaxiques de PCFG

La grammaire probabiliste sans contexte (PCFG) est un outil de base en linguistique informatique qui peut être utilisé pour modéliser la syntaxe des langues naturelles. PCFG est une extension de la grammaire sans contexte standard (CFG) qui associe des probabilités dans les règles de génération, représentant ainsi l'ambiguïté et la variabilité du langage de manière quantifiable. Ces grammaires génèrent des arbres dans lesquels chaque nœud représente une catégorie syntaxique et chaque arête représente une règle générative utilisée pour générer des phrases. Lors de la génération de phrases à partir d'un PCFG, les séquences de règles de génération appliquées sont échantillonnées de manière probabiliste jusqu'à ce que tous les nœuds feuilles de l'arborescence soient des points finaux (jetons lexicaux réels).

Nous pouvons contrôler les propriétés syntaxiques de PCFG pour ajuster la complexité des ensembles de données textuelles de manière naturelle. Plus précisément, les paramètres que la fonction de création PCFG peut accepter incluent : le nombre de points de terminaison, les données pour les non-points de terminaison, la longueur maximale du côté droit de la règle de génération et le nombre maximum de règles de génération autorisées pour tout non-point de terminaison ( si cette valeur est 1, alors les points non-terminaux donnés obtiendront toujours le même côté droit). Intuitivement, une augmentation de chacune des valeurs ci-dessus entraînera une augmentation de la complexité syntaxique.

Pour créer un PCFG basé sur les paramètres ci-dessus, pour chaque point final, choisissez aléatoirement son nombre de générations (option RHS), la longueur de chacune de ces générations, instanciez les règles de génération en échantillonnant aléatoirement à partir des points finaux et non- points finaux, et une probabilité lui est attribuée (normalisée par le total des options RHS pour les non-points finaux). Ensuite, collectez toutes les règles générées pour tous les non-points de terminaison et instanciez une grammaire à l'aide du package PCFG construit sur NLTK.

Utilisez ensuite cette grammaire (créée aléatoirement sous des contraintes données) pour échantillonner de manière probabiliste des phrases afin de créer un ensemble de données de séquence de jetons. Afin de faciliter la comparaison ultérieure des entraînements sur différentes grammaires (générant des phrases de longueurs moyennes différentes), il a décidé d'échantillonner les phrases dans des documents comportant le même nombre de jetons. Continuez à échantillonner les phrases en fonction de la grammaire jusqu'à ce que la longueur du contexte soit remplie. En cas de débordement, la phrase est directement tronquée.

Les phrases sont composées de points de terminaison qui ne sont que des entiers, ils peuvent donc être considérés comme des identifiants de jeton du modèle de langage ; l'entier 0 inutilisé (qui correspond effectivement à un point en langage naturel) est utilisé pour relier les phrases. Pour clarifier, il ne s'agit pas de générer une chaîne qui "ressemble" au langage naturel, puis de la tokeniser - PCFG génère directement la séquence de l'ID du jeton lui-même. Désormais, 6 ensembles de données de séquences de jetons avec différentes complexités peuvent être générés sur la base de 6 ensembles de contraintes grammaticales initiales.

Mesurer la complexité syntaxique avec la compressibilité gzip

Pour estimer la complexité des ensembles de données générés ainsi que des ensembles de données réels, Rohan Pandey a choisi d'utiliser un algorithme de compression appelé gzip.

L'un des avantages de gzip est qu'il existe une bonne base de recherche théorique, qui montre que : la compressibilité est inversement proportionnelle à l'entropie, et l'entropie est directement proportionnelle à la complexité syntaxique. Plus précisément, pour chaque séquence de jetons de 1 000 jetons dans l'ensemble de données, utilisez gzip et calculez le rapport entre la taille (en octets) des données compressées et les données d'origine.

Ensuite, la médiane et l'écart type du taux de compressibilité sont calculés pour confirmer que les grammaires avec une complexité syntaxique plus élevée rendront plus difficile la compression de l'ensemble de données.

Le Tableau 1 répertorie les paramètres syntaxiques et les taux de compression mesurés de chaque grammaire.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

On peut observer qu'à mesure que le point non final (catégorie de grammaire), le point final (jeton), l'option de droite et la longueur de droite augmentent, le taux de compression gzip augmentera également, c'est-à-dire qu'il devient plus difficile à compresser.

La figure 1 représente ces ensembles de données ainsi que les données de langage naturel et de code.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

On constate qu'en termes de complexité, certains jeux de données PCFG sont proches des données de code (la partie facilement compressible), tandis que d'autres sont proches du langage naturel.

La loi de Scaling est-elle sensible à la complexité des données ?

Afin de déterminer la loi d'échelle de l'ensemble de données, le chercheur a formé plusieurs modèles de tailles différentes (paramètres de 4,2M, 8,8M, 20,3M, 59,0M, 275,3M, 1,4B), le tableau 6 donne son architecture détails, puis il a effectué l'ajustement de la loi de puissance sur les résultats de perte obtenus. La plupart des expériences ont été réalisées sur 4 NVIDIA A100 avec 80 Go de VRAM, en utilisant PyTorch FSDP.

Comme le montre la figure 2, si un ensemble de données est plus facile à compresser (plus le taux de compressibilité est faible), le modèle convergera plus rapidement. Ceci est cohérent avec notre compréhension intuitive.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Bien que cela suggère que nous avons besoin de plus d'efforts de calcul pour modéliser des ensembles de données plus complexes, nous avons besoin de plus de preuves pour déterminer si la limite informatique optimale change directement en fonction de la complexité des données. Pour établir la sensibilité non triviale de la loi d'échelle à la complexité des données, il faut calculer la loi d'échelle pour chaque ensemble de données et étudier ses paramètres d'ajustement.

Calculez la loi de mise à l'échelle sensible aux données basée sur le taux de compressibilité gzip

Hoffmann et al. La forme fonctionnelle de la loi de mise à l'échelle proposée en 2022 consiste à utiliser la perte d'entraînement en fonction du modèle et de la taille des données. :

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Où N est le nombre de paramètres du modèle et D est le nombre de jetons dans l'ensemble de données d'entraînement. Ils affirment que E est « l'entropie du texte naturel » et que la loi de mise à l'échelle est « indépendante des ensembles de données ». Cependant, lorsque Rohan Pandey a adapté les résultats de la formation avec cette fonction sur l'ensemble de données PCFG, il a constaté que la loi d'échelle de chaque ensemble de données était très différente, voir le tableau 2.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Cette loi d'échelle peut obtenir une limite de calcul optimale pour la quantité de paramètre (dérivée de Kaplan et al. [2020] et Hoffmann et al. [2022]), qui peut être simplifiée en :

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

où C est le budget de calcul, en FLOP.

La figure 3 représente les limites optimales calculées par Chinchilla et la loi de mise à l'échelle adaptée à chaque ensemble de données PCFG.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

On peut voir qu'à mesure que les données deviennent de plus en plus difficiles à compresser, la limite de la loi de mise à l'échelle obtenue par ajustement devient progressivement biaisée en faveur des données, quelque part dans l'intervalle de 0,23 < &Lt ; 0,45 Le point a traversé la limite d'un à un Chinchilla.

Pour prédire les paramètres de la loi de mise à l'échelle en fonction du taux de compressibilité de l'ensemble de données, un simple ajustement de régression linéaire peut être effectué sur les paramètres de la loi de mise à l'échelle ajustés de chaque ensemble de données. Comme nous l'avons mentionné précédemment, pour l'ensemble de données D, la méthode de calcul du taux de compressibilité H consiste d'abord à calculer le rapport entre la quantité de bits compressée et la quantité de bits d'origine de chaque élément d, puis à calculer la moyenne de tous les éléments.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Une fois les droites prédisant chaque paramètre (E, A, B, α, β) ajustées à partir de H, chaque paramètre peut être redéfini en fonction de la compressibilité :

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

où m_x et n_x sont les paramètres de la régression linéaire après ajustement.

Le tableau 3 donne ces valeurs ajustées (et les valeurs p de la régression), et la figure 4 est le résultat de visualisation de ces régressions linéaires.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Ils diminuent presque tous de manière monotone, juste à des rythmes différents, et à H environ 0,27, α et β se croisent. Il convient de noter que E (l'« entropie du langage naturel » initialement fixée à une constante) est le seul paramètre qui augmente avec H (mais pas de manière significative).

Vous pouvez maintenant reparamétrer l'équation (1) en fonction du taux de compressibilité H :

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Cependant, comme l'échelle de l'expérience ici est assez petite et principalement axée sur l'ensemble de données PCFG, Pandey a étendu la fonction - après avoir ajusté Chinchilla, la loi d'échelle dépendante des données a été obtenue :

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Où ε est le poids d'ajustement du taux de compression gzip des données d'entraînement, et le paramètre ajouté ' est la constante Chinchilla.

Éliminer les paramètres syntaxiques en tant que variable confondante dans la compressibilité

Les expériences ci-dessus n'abordent pas la possibilité que cette mesure de compressibilité soit confondue par une propriété syntaxique sous-jacente (telle que la taille du vocabulaire). Pour résoudre ce problème, la figure 5 présente des résultats supplémentaires.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

On peut voir qu'en gardant la taille du vocabulaire stable et en modifiant d'autres propriétés syntaxiques (Tableau 4), le taux de compressibilité de gzip peut toujours prédire les changements de paramètres de la loi de mise à l'échelle (la corrélation est encore plus forte que l'augmentation du vocabulaire paramètres).

La figure 6 est un contre-exemple trouvé dans la pratique, qui montre que lorsque les propriétés syntaxiques varient considérablement (Tableau 5) mais que le taux de compressibilité gzip final de ces ensembles de données est le même, les paramètres de la loi de mise à l'échelle ne changeront pas de manière significative.

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Bien que le comportement d'intersection comme dans la figure 4 ne soit pas observé dans ce cas de vocabulaire équivalent, la pente de α est toujours plus raide que β (A est également plus raide que B), ce qui montre qu'avec gzip À mesure que la compressibilité augmente, on observe le même phénomène de biais des données.

Ainsi, on peut dire que ces résultats montrent que : la loi de mise à l'échelle dépend des données d'entraînement, et le taux de compressibilité gzip est un bon prédicteur de l'impact de la complexité des données sur les propriétés de mise à l'échelle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn