Maison  >  Article  >  Périphériques technologiques  >  Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

WBOY
WBOYavant
2023-04-13 12:04:021796parcourir

À mesure que les modèles de langage deviennent de plus en plus grands (le nombre de paramètres, la quantité de calculs utilisés et la taille de l'ensemble de données deviennent tous plus grands), leurs performances semblent s'améliorer. C'est ce qu'on appelle la loi de mise à l'échelle du langage naturel. Cela s’est avéré vrai dans de nombreuses missions.

Peut-être que les résultats de certaines tâches deviendront pires en raison de l'augmentation de la taille du modèle. De telles tâches sont appelées mise à l'échelle inverse et peuvent indiquer s'il existe une sorte de défaut dans les données d'entraînement ou dans l'objectif d'optimisation.

Cette année, plusieurs chercheurs de l'Université de New York ont ​​organisé un concours plus alternatif : rechercher des tâches pour lesquelles les grands modèles ne sont pas doués. Sur ces tâches, plus le modèle de langage est grand, plus les performances sont mauvaises.

Pour encourager tout le monde à participer à l'identification des tâches Inverse Scaling, ils ont créé le Inverse Scaling Award, et les tâches de soumission gagnantes recevront des récompenses d'une cagnotte de 250 000 $. Les experts décernant le prix évaluent les soumissions sur la base d'un ensemble de critères : les critères incluent la force de la mise à l'échelle inverse, l'importance de la tâche, la nouveauté, la couverture des tâches, la reproductibilité et la généralisabilité de la mise à l'échelle inverse.

Le concours comporte deux tours. La date limite pour le premier tour est le 27 août 2022 et la date limite pour le deuxième tour est le 27 octobre 2022. Le premier des deux tours a reçu 43 soumissions, et quatre tâches ont obtenu la troisième place, qui seront incluses dans le benchmark final Inverse Scaling.

Les résultats de recherche pertinents ont été résumés dans un article rédigé par plusieurs chercheurs de Google :

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

Lien papier : https://arxiv.org/pdf/2211.02011.pdf

Inverse Scaling of ces quatre tâches sont appliquées à trois modèles de langage, et les paramètres des modèles couvrent trois ordres de grandeur : Gopher (42M-280B), Chinchilla (400M-70B) et le modèle interne Anthropic (13M-52B). Les tâches qui rapportent des récompenses de mise à l'échelle inverse sont l'assurance qualité de négation, la négligence rétrospective, la répétition de devis et la redéfinition des mathématiques. Un exemple de tâche connexe est présenté dans la figure 1.

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

Dans cet article, l'auteur a mené une étude détaillée sur les performances de mise à l'échelle de ces quatre tâches.

Les auteurs ont d'abord effectué une évaluation sur le modèle PaLM-540B, qui est 5 fois plus gourmand en calcul que le modèle évalué dans la soumission du Inverse Scaling Prize. En comparant le PaLM-540B, l'auteur a constaté que trois des quatre tâches présentaient une caractéristique appelée mise à l'échelle en forme de U : les performances tombaient d'abord à un certain niveau à mesure que la taille du modèle augmentait, puis les performances augmentaient à nouveau à mesure que la taille du modèle augmentait. augmenté.

L'auteur pense que lorsqu'une tâche contient à la fois une « vraie tâche » et une « tâche de distraction », une mise à l'échelle en forme de U se produira. Les modèles moyens peuvent exécuter la « tâche de distraction », affectant les performances, tandis que les modèles plus grands peuvent ignorer la « tâche de distraction » et être capables d'exécuter la « vraie tâche ». Les conclusions des auteurs sur la mise à l'échelle en forme de U sont cohérentes avec les résultats des tâches BIG-Bench telles que TruthfulQA, identifiant des théorèmes mathématiques. L'implication de la mise à l'échelle en forme de U est que la courbe de mise à l'échelle inverse peut ne pas fonctionner pour les modèles plus grands, car les performances peuvent continuer à diminuer ou commencer à augmenter.

Ensuite, les auteurs ont exploré si les invites de chaîne de pensée (CoT) modifiaient l'échelle de ces tâches. Les invites utilisant des CoT incitent le modèle à décomposer la tâche en étapes intermédiaires par rapport aux invites sans CoT. Les expériences de l'auteur montrent que l'utilisation de CoT modifie deux des trois tâches de mise à l'échelle en forme de U en courbes de mise à l'échelle positive, et que les tâches restantes passent de la mise à l'échelle inverse à la mise à l'échelle positive. Lors de l'utilisation de l'invite de CoT, le grand modèle a même atteint une précision de 100 % sur deux tâches et sept sous-tâches sur huit dans Redefine Math.

Les résultats montrent que le terme « mise à l'échelle inverse » n'est en fait pas clair, car pour une invite, une tâche donnée peut être une mise à l'échelle inverse, mais pour différentes invites, il peut s'agir d'une mise à l'échelle positive ou d'une mise à l'échelle en forme de U.

Mise à l'échelle en forme de U

Dans cette partie, l'auteur utilise les modèles Palm 8B, 62B et 540B proposés dans l'article original pour évaluer les performances du modèle Palm sur quatre tâches Inverse Scaling Award, y compris la formation de jetons 40B. Le 1B résultant modèle (son effort de calcul est d'environ 0,2 zettaFLOP). Un seul Palm-540B possède environ deux fois les paramètres du plus grand modèle évalué dans le cadre du Inverse Scaling Prize (Gopher-280B) et un effort de calcul d'environ 2,5 000 zettaFLOP, contre seulement 560 zettaFLOP pour le Chinchilla-70B.

En plus de suivre les paramètres par défaut de l'Inverse Scaling Award, l'auteur a également apporté de petites modifications, comme l'utilisation de la génération de forme libre (suivie d'une correspondance exacte de chaînes au lieu d'une classification de classement). suites possibles de Prompt. L'auteur a également apporté de petites modifications à l'invite pour l'adapter à la génération de forme libre, c'est-à-dire que toutes les invites sont au moins ponctuelles, les options de réponse sont fournies dans l'invite de saisie et l'invite permet au modèle d'afficher "la réponse est".

Le formulaire spécifique est présenté dans la figure 1. Les auteurs pensent que cela est raisonnable car ce formalisme est cohérent avec les travaux récents sur les invites et les performances empiriques sont similaires entre les modèles précédemment évalués et PaLM 8B/62B (toutes les invites utilisées par les auteurs dans cet article sont disponibles.)

Figure 2 montre les résultats de Palm, Anthropic, Gopher et Chinchilla sur quatre tâches :


Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence


  • Sur la tâche Negation QA, la précision du Palm-62B par rapport au modèle Palm-8B , la précision a considérablement diminué, tandis que la précision du modèle Palm-540B s'est améliorée
  • Sur la tâche Hindsight Neglect, la précision du Palm-8B et du Palm-62B est tombée à un niveau bien inférieur au niveau des nombres aléatoires, mais ; la précision du Palm-540B a atteint 100 %
  • Sur la tâche de répétition de devis, la précision est passée de 86 % du Palm-8B à 81 % du Palm-62B, mais la précision du Palm-540B a atteint 100 % . En fait, les modèles Gopher et Chinchilla montrent déjà des signes de mise à l'échelle en forme de U dans la tâche Répétition de citations.

L'exception parmi ces quatre tâches est Redéfinir les mathématiques, car même avec le Palm-540B, elle ne montre aucun signe de mise à l'échelle en forme de U. Par conséquent, il n’est pas clair si cette tâche deviendra une échelle en forme de U pour les grands modèles qui existent actuellement. Ou s’agira-t-il réellement d’une mise à l’échelle inverse ?

Une question pour la mise à l'échelle en forme de U est la suivante : pourquoi les performances diminuent-elles d'abord, puis augmentent-elles ?

L'auteur émet une hypothèse spéculative : que les tâches de chaque Inverse Scaling Award peuvent être décomposées en deux tâches (1) « vraie tâche » et (2) « tâche de distraction » qui affectent la performance. Étant donné que le petit modèle ne peut pas accomplir ces deux tâches, il ne peut atteindre que des performances proches de la précision aléatoire. Les modèles moyens peuvent effectuer des « tâches de distraction », ce qui peut entraîner une dégradation des performances. Les grands modèles peuvent ignorer la « tâche de distraction » et exécuter la « vraie tâche » pour améliorer les performances et potentiellement résoudre la tâche.

La figure 5 montre une « tâche de distraction » potentielle. Bien qu'il soit possible de tester les performances du modèle uniquement sur la « tâche de distraction », il s'agit d'une expérience d'ablation imparfaite car la « tâche de distraction » et la « vraie tâche » peuvent non seulement être en concurrence l'une avec l'autre, mais peuvent également avoir un effet différent. impact conjoint sur la performance. Ensuite, l’auteur explique plus en détail pourquoi une mise à l’échelle en forme de U se produit et quels travaux doivent être effectués à l’avenir.

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

Impact de l'invite CoT sur la mise à l'échelle inverse

Ensuite, l'auteur explore comment la mise à l'échelle des 4 tâches de l'Inverse Scaling Award change lors de l'utilisation de différents types d'invites. Alors que les initiateurs de l'Inverse Scaling Award ont utilisé une stratégie d'invite de base consistant à inclure quelques échantillons dans les instructions, le modèle d'incitation de la chaîne de pensée (CoT) génère des étapes intermédiaires avant de donner la réponse finale, qui peut être utilisée dans un raisonnement en plusieurs étapes. tâches. Améliorer considérablement les performances. Autrement dit, l'invite sans CoT constitue la limite inférieure des capacités du modèle. Pour certaines tâches, l'invite de CoT représente mieux les meilleures performances du modèle.

La partie supérieure de la figure 3 est un exemple d'invite CoT, et la partie inférieure est les performances de l'assurance qualité de négation, de la négligence rétrospective et de la répétition de devis avec l'invite CoT.

Pour l'assurance qualité par négation et la négligence rétrospective, l'invite de CoT modifie la courbe d'échelle de la forme en U à positive. Pour la répétition de devis, l'invite de CoT présente toujours une courbe en forme de U, bien que les performances du Palm-8B et du Palm-62B soient nettement meilleures et que le Palm-540B atteigne une précision de 100 %.

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

La figure 4 montre les résultats de Redéfinir les mathématiques avec l'invite CoT. La tâche se compose en fait de 8 sous-tâches, chacune avec des instructions différentes, de sorte que les auteurs divisent également les performances en sous-tâches pour déterminer si les sous-tâches ont le même comportement de mise à l'échelle. En résumé, l'invite de CoT affiche une mise à l'échelle positive pour toutes les sous-tâches, atteignant une précision de 100 % sur 7 sous-tâches sur 8 sur les modèles Palm-62B et Palm-540B. Cependant, pour les sous-tâches "+ comme chiffre" et "+ comme nombre aléatoire", même en utilisant le Palm-540B, il existe une courbe de mise à l'échelle inverse évidente.

Plus le modèle est grand, plus les performances sont mauvaises ? Google collecte les tâches qui font échouer les grands modèles et crée une nouvelle référence

Pour résumer, toutes les tâches et sous-tâches étudiées ont montré une mise à l'échelle en forme de U ou une mise à l'échelle positive lors de l'utilisation de l'invite CoT. Cela ne signifie pas que les résultats de l'invite no-CoT ne sont pas valides, mais cela apporte plutôt une nuance supplémentaire en soulignant comment la courbe d'échelle d'une tâche diffère en fonction du type d'invite utilisé. Autrement dit, la même tâche peut avoir une courbe de mise à l'échelle inverse pour un type d'invite et une mise à l'échelle en forme de U ou une mise à l'échelle positive pour un autre type d'invite. Par conséquent, le terme « tâche de mise à l’échelle inverse » n’a pas de définition claire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer