Maison  >  Article  >  Périphériques technologiques  >  Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

PHPz
PHPzavant
2023-04-08 17:51:041643parcourir

​Les modèles linguistiques ont profondément transformé la recherche et la pratique dans le domaine du traitement du langage naturel. Ces dernières années, les grands modèles ont réalisé des percées importantes dans de nombreux domaines. Ils n’ont pas besoin d’être peaufinés sur les tâches en aval. Avec des instructions ou des invites appropriées, ils peuvent atteindre d’excellentes performances, parfois même étonnantes.

Par exemple, GPT-3 [1] peut écrire des lettres d'amour, des scripts et résoudre des problèmes de raisonnement mathématique complexes avec des données, et PaLM [2] peut interpréter des blagues. L'exemple ci-dessus n'est que la pointe de l'iceberg des capacités des grands modèles. Vous pouvez voir de nombreuses démos associées sur le site Web d'OpenAI [3], mais ces capacités se reflètent rarement dans les petits modèles.

Dans le document présenté aujourd'hui, les capacités que les petits modèles n'ont pas mais que les grands modèles ont sont appelées capacités émergentes (Emergent Abilities), qui font référence aux capacités qui sont soudainement acquises une fois que l'échelle du modèle atteint un certain niveau. . Il s'agit d'un processus dans lequel des changements quantitatifs conduisent à des changements qualitatifs.

L’émergence de capacités émergentes est difficile à prévoir. La raison pour laquelle le modèle acquiert soudainement certaines capacités à mesure que l’échelle augmente reste une question ouverte à laquelle des recherches plus approfondies sont nécessaires pour répondre. Dans cet article, l'auteur passe en revue quelques progrès récents dans la compréhension des grands modèles et donne quelques réflexions connexes. J'ai hâte d'en discuter avec vous.

Articles connexes :​

  • Capacités émergentes des grands modèles de langage.
    http://arxiv.org/abs/2206.07682
  • Au-delà du jeu d'imitation : quantifier et extrapoler les capacités des modèles de langage .
    https://arxiv.org/abs/2206.04615

​Capacités émergentes des grands modèles

Qu'est-ce qu'un grand modèle ? Quelle taille est considérée comme « grande » ? Cela n’a pas de définition claire.

De manière générale, les paramètres du modèle peuvent devoir atteindre le niveau des milliards pour montrer des capacités qui sont significativement différentes de celles des petits modèles à tir nul et à quelques tirs. Ces dernières années, de nombreux modèles comportant des centaines de milliards et de milliards de paramètres ont permis d'atteindre les performances SOTA sur une série de tâches. Dans certaines tâches, les performances du modèle s'améliorent de manière fiable avec l'augmentation de l'échelle, tandis que dans d'autres tâches, le modèle montre une augmentation soudaine des performances à une certaine échelle. Deux indicateurs peuvent être utilisés pour classer différentes tâches [4] : ​​

  • Linéarité : vise à mesurer dans quelle mesure les performances du modèle sur la tâche sont améliorées de manière fiable à mesure que l'échelle augmente.

  • Percée : conçu pour mesurer dans quelle mesure une tâche peut être apprise lorsque la taille du modèle dépasse une valeur critique.

Ces deux indicateurs sont fonction de la taille du modèle et des performances du modèle. Pour des détails de calcul spécifiques, veuillez vous référer à [4]. La figure ci-dessous montre quelques exemples de tâches à haute linéarité et à haute percée.

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

La plupart des tâches à haute linéarité sont basées sur la connaissance, ce qui signifie qu'elles reposent principalement sur la mémorisation des informations présentes dans les données d'entraînement, comme répondre à certaines questions factuelles. Les modèles plus grands utilisent généralement plus de données pour la formation et peuvent mémoriser plus de connaissances, de sorte que le modèle montre une amélioration stable dans ces tâches à mesure que l'échelle augmente. Les tâches de haute percée comprennent des tâches plus complexes qui nécessitent l'utilisation de plusieurs capacités différentes ou l'exécution de plusieurs étapes pour arriver à la bonne réponse, comme le raisonnement mathématique. Les modèles plus petits ont du mal à acquérir toutes les capacités nécessaires pour effectuer de telles tâches.

La figure ci-dessous montre en outre les performances de différents modèles sur certaines tâches à haute percée

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Lorsqu'une certaine taille de modèle n'est pas atteinte, les performances du modèle sur ces tâches sont aléatoires après un certain temps. certaine échelle, il y a eu une amélioration significative.

Est-ce doux ou soudain ?

Ce que nous avons vu plus tôt, c'est qu'une fois que l'échelle du modèle a atteint un certain niveau, il acquiert soudainement certaines capacités. Du point de vue des indicateurs spécifiques à une tâche, ces capacités sont émergentes, mais d'un autre point de vue, les changements potentiels dans les capacités du modèle sont plus importants. lisse. Cet article aborde les deux perspectives suivantes : (1) utiliser des indicateurs plus fluides ; (2) décomposer des tâches complexes en plusieurs sous-tâches ;

La figure suivante (a) montre la courbe de changement de la probabilité logarithmique de la cible réelle pour certaines tâches à haute percée. La probabilité logarithmique de la cible réelle augmente progressivement à mesure que la taille du modèle augmente.

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

La figure (b) montre que pour une certaine tâche à choix multiples, à mesure que la taille du modèle augmente, la probabilité logarithmique de la bonne réponse augmente progressivement, tandis que la probabilité logarithmique de la mauvaise réponse est à un certain Il augmente progressivement avant une taille spécifique et se stabilise ensuite. Après cette échelle, l’écart entre la probabilité de bonnes réponses et la probabilité de mauvaises réponses se creuse, et le modèle obtient des améliorations significatives des performances.

De plus, pour une tâche spécifique, supposons que nous puissions utiliser Exact Match et BLEU pour évaluer les performances du modèle. BLEU est un indicateur plus fluide qu'Exact Match. Les tendances observées en utilisant différents indicateurs peuvent être significativement différentes de l'écart. .

Pour certaines tâches, le modèle peut acquérir une capacité partielle à effectuer cette tâche à différentes échelles. L'image ci-dessous consiste à deviner le nom d'un film à travers une chaîne d'emojis

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Nous pouvons voir que le modèle commence à deviner le nom du film à certaines échelles, reconnaît la sémantique des emojis à à plus grande échelle, et au plus grand Produire des réponses correctes à une échelle.

Les grands modèles sont très sensibles à la manière dont la tâche est formalisée

L'échelle à laquelle le modèle montre une amélioration soudaine de ses capacités dépend également de la manière dont la tâche est formalisée. Par exemple, sur des tâches de raisonnement mathématique complexes, si des invites standard sont utilisées pour les traiter comme une tâche de questions et réponses, l'amélioration des performances sera très limitée à mesure que la taille du modèle augmente. Cependant, si l'invite de chaîne de pensée [5] est utilisé comme le montre la figure ci-dessous, il sera traité comme une tâche de questions et réponses. Traité comme une tâche d'inférence en plusieurs étapes, des améliorations significatives des performances seront constatées à une certaine échelle.

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

De plus, les chercheurs ont découvert qu'en ajoutant une simple invite « Pensons étape par étape », la capacité de raisonnement sans tir de GPT-3 peut être grandement améliorée[6] Comme le montre dans la figure ci-dessous

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Cette inspiration pour nous est que parfois les grands modèles ne peuvent pas bien accomplir une certaine tâche, ce n'est peut-être pas qu'ils ne peuvent pas vraiment bien la faire, mais qu'ils ont besoin d'un moyen approprié pour la stimuler. cela.

Plus le modèle est grand forcément plus fort ?

La discussion précédente nous donne le sentiment intuitif que les performances doivent être améliorées à mesure que la taille du modèle augmente, mais est-ce vraiment le cas ? En fait, pour certaines tâches, les performances peuvent diminuer à mesure que le modèle devient plus grand, comme le montre la figure ci-dessous

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Plusieurs chercheurs de l'Université de New York ont ​​également organisé un concours pour trouver les tâches où les performances du modèle se détériore à mesure que le modèle devient plus grand.

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

Par exemple, dans une tâche de questions et réponses, si vous ajoutez vos croyances avec la question, le grand modèle sera plus facilement affecté. Les étudiants intéressés peuvent y prêter attention.

Résumé et réflexions

  • Dans la plupart des tâches, à mesure que la taille du modèle augmente, les performances du modèle s'améliorent, mais il y aura également des contre-exemples. Des recherches supplémentaires sont nécessaires pour mieux comprendre le comportement des modèles.

  • La capacité des grands modèles doit être stimulée de manière adaptée.

  • Le grand modèle fait-il vraiment de l'inférence ? Comme nous l'avons vu précédemment, en ajoutant l'invite « Pensons étape par étape », le grand modèle peut effectuer un raisonnement en plusieurs étapes et obtenir des résultats satisfaisants sur les tâches de raisonnement mathématique. Il semble que le modèle possède déjà des capacités de raisonnement humain. Cependant, comme indiqué ci-dessous, si vous posez à GPT-3 une question dénuée de sens et que vous le laissez effectuer un raisonnement en plusieurs étapes, GPT-3 semble faire un raisonnement, mais en fait, il s'agit d'un résultat dénué de sens. Comme le dit le proverbe « les déchets rentrent, les déchets sortent ». En comparaison, les humains peuvent juger si la question est raisonnable, c’est-à-dire si la question actuelle peut répondre dans des conditions données. "Pensons étape par étape" peut fonctionner. Je pense que la raison fondamentale est que GPT-3 a vu beaucoup de données similaires au cours du processus de formation, c'est simplement prédire le prochain jeton en fonction du jeton précédent. Il existe encore des différences fondamentales dans la façon de penser. Bien sûr, si des invites appropriées sont données pour permettre à GPT-3 de juger si la question est raisonnable, il pourra peut-être le faire dans une certaine mesure, mais il y a encore une distance considérable entre la « réflexion » et le « raisonnement ». Ce n’est pas simple. Cela peut être résolu en augmentant la taille du modèle. Les modèles n’ont peut-être pas besoin de penser comme les humains, mais des recherches supplémentaires sont nécessaires de toute urgence pour explorer des voies autres que l’augmentation de la taille des modèles.

Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?

  • Système 1 ou Système 2 ? Le cerveau humain possède deux systèmes qui coopèrent l’un avec l’autre : le système 1 (intuition) est rapide et automatique, tandis que le système 2 (rationalité) est lent et contrôlable. Un grand nombre d'expériences ont prouvé que les gens préfèrent utiliser l'intuition pour porter des jugements et prendre des décisions, et que la rationalité peut corriger les biais qu'elle provoque. La plupart des modèles actuels sont conçus sur la base du système 1 ou du système 2. Les futurs modèles peuvent-ils être conçus sur la base de systèmes doubles ?

  • Langage de requête pour l'ère des grands modèles. Auparavant, nous stockions les connaissances et les données dans des bases de données et des graphiques de connaissances. Nous pouvons utiliser SQL pour interroger des bases de données relationnelles et SPARQL pour interroger des graphiques de connaissances. Alors, quel langage de requête utilisons-nous pour appeler les connaissances et les capacités des grands modèles ?

M. Mei Yiqi a dit un jour : « Le soi-disant grand érudit ne signifie pas un bâtiment, mais un maître. » L'auteur termine cet article par une analogie inappropriée : la soi-disant grande personne modèle, c'est le cas. Cela ne veut pas dire qu’il existe des paramètres, mais cela signifie qu’il existe des capacités.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer