Maison > Article > Périphériques technologiques > Google et Stanford ont publié conjointement un article : Pourquoi devons-nous utiliser de grands modèles ?
Les modèles linguistiques ont profondément transformé la recherche et la pratique dans le domaine du traitement du langage naturel. Ces dernières années, les grands modèles ont réalisé des percées importantes dans de nombreux domaines. Ils n’ont pas besoin d’être peaufinés sur les tâches en aval. Avec des instructions ou des invites appropriées, ils peuvent atteindre d’excellentes performances, parfois même étonnantes.
Par exemple, GPT-3 [1] peut écrire des lettres d'amour, des scripts et résoudre des problèmes de raisonnement mathématique complexes avec des données, et PaLM [2] peut interpréter des blagues. L'exemple ci-dessus n'est que la pointe de l'iceberg des capacités des grands modèles. Vous pouvez voir de nombreuses démos associées sur le site Web d'OpenAI [3], mais ces capacités se reflètent rarement dans les petits modèles.
Dans le document présenté aujourd'hui, les capacités que les petits modèles n'ont pas mais que les grands modèles ont sont appelées capacités émergentes (Emergent Abilities), qui font référence aux capacités qui sont soudainement acquises une fois que l'échelle du modèle atteint un certain niveau. . Il s'agit d'un processus dans lequel des changements quantitatifs conduisent à des changements qualitatifs.
L’émergence de capacités émergentes est difficile à prévoir. La raison pour laquelle le modèle acquiert soudainement certaines capacités à mesure que l’échelle augmente reste une question ouverte à laquelle des recherches plus approfondies sont nécessaires pour répondre. Dans cet article, l'auteur passe en revue quelques progrès récents dans la compréhension des grands modèles et donne quelques réflexions connexes. J'ai hâte d'en discuter avec vous.
Articles connexes :
Qu'est-ce qu'un grand modèle ? Quelle taille est considérée comme « grande » ? Cela n’a pas de définition claire.
De manière générale, les paramètres du modèle peuvent devoir atteindre le niveau des milliards pour montrer des capacités qui sont significativement différentes de celles des petits modèles à tir nul et à quelques tirs. Ces dernières années, de nombreux modèles comportant des centaines de milliards et de milliards de paramètres ont permis d'atteindre les performances SOTA sur une série de tâches. Dans certaines tâches, les performances du modèle s'améliorent de manière fiable avec l'augmentation de l'échelle, tandis que dans d'autres tâches, le modèle montre une augmentation soudaine des performances à une certaine échelle. Deux indicateurs peuvent être utilisés pour classer différentes tâches [4] :
Ces deux indicateurs sont fonction de la taille du modèle et des performances du modèle. Pour des détails de calcul spécifiques, veuillez vous référer à [4]. La figure ci-dessous montre quelques exemples de tâches à haute linéarité et à haute percée.
La plupart des tâches à haute linéarité sont basées sur la connaissance, ce qui signifie qu'elles reposent principalement sur la mémorisation des informations présentes dans les données d'entraînement, comme répondre à certaines questions factuelles. Les modèles plus grands utilisent généralement plus de données pour la formation et peuvent mémoriser plus de connaissances, de sorte que le modèle montre une amélioration stable dans ces tâches à mesure que l'échelle augmente. Les tâches de haute percée comprennent des tâches plus complexes qui nécessitent l'utilisation de plusieurs capacités différentes ou l'exécution de plusieurs étapes pour arriver à la bonne réponse, comme le raisonnement mathématique. Les modèles plus petits ont du mal à acquérir toutes les capacités nécessaires pour effectuer de telles tâches.
La figure ci-dessous montre en outre les performances de différents modèles sur certaines tâches à haute percée
Lorsqu'une certaine taille de modèle n'est pas atteinte, les performances du modèle sur ces tâches sont aléatoires après un certain temps. certaine échelle, il y a eu une amélioration significative.
Ce que nous avons vu plus tôt, c'est qu'une fois que l'échelle du modèle a atteint un certain niveau, il acquiert soudainement certaines capacités. Du point de vue des indicateurs spécifiques à une tâche, ces capacités sont émergentes, mais d'un autre point de vue, les changements potentiels dans les capacités du modèle sont plus importants. lisse. Cet article aborde les deux perspectives suivantes : (1) utiliser des indicateurs plus fluides ; (2) décomposer des tâches complexes en plusieurs sous-tâches ;
La figure suivante (a) montre la courbe de changement de la probabilité logarithmique de la cible réelle pour certaines tâches à haute percée. La probabilité logarithmique de la cible réelle augmente progressivement à mesure que la taille du modèle augmente.
La figure (b) montre que pour une certaine tâche à choix multiples, à mesure que la taille du modèle augmente, la probabilité logarithmique de la bonne réponse augmente progressivement, tandis que la probabilité logarithmique de la mauvaise réponse est à un certain Il augmente progressivement avant une taille spécifique et se stabilise ensuite. Après cette échelle, l’écart entre la probabilité de bonnes réponses et la probabilité de mauvaises réponses se creuse, et le modèle obtient des améliorations significatives des performances.
De plus, pour une tâche spécifique, supposons que nous puissions utiliser Exact Match et BLEU pour évaluer les performances du modèle. BLEU est un indicateur plus fluide qu'Exact Match. Les tendances observées en utilisant différents indicateurs peuvent être significativement différentes de l'écart. .
Pour certaines tâches, le modèle peut acquérir une capacité partielle à effectuer cette tâche à différentes échelles. L'image ci-dessous consiste à deviner le nom d'un film à travers une chaîne d'emojis
Nous pouvons voir que le modèle commence à deviner le nom du film à certaines échelles, reconnaît la sémantique des emojis à à plus grande échelle, et au plus grand Produire des réponses correctes à une échelle.
L'échelle à laquelle le modèle montre une amélioration soudaine de ses capacités dépend également de la manière dont la tâche est formalisée. Par exemple, sur des tâches de raisonnement mathématique complexes, si des invites standard sont utilisées pour les traiter comme une tâche de questions et réponses, l'amélioration des performances sera très limitée à mesure que la taille du modèle augmente. Cependant, si l'invite de chaîne de pensée [5] est utilisé comme le montre la figure ci-dessous, il sera traité comme une tâche de questions et réponses. Traité comme une tâche d'inférence en plusieurs étapes, des améliorations significatives des performances seront constatées à une certaine échelle.
De plus, les chercheurs ont découvert qu'en ajoutant une simple invite « Pensons étape par étape », la capacité de raisonnement sans tir de GPT-3 peut être grandement améliorée[6] Comme le montre dans la figure ci-dessous
Cette inspiration pour nous est que parfois les grands modèles ne peuvent pas bien accomplir une certaine tâche, ce n'est peut-être pas qu'ils ne peuvent pas vraiment bien la faire, mais qu'ils ont besoin d'un moyen approprié pour la stimuler. cela.
La discussion précédente nous donne le sentiment intuitif que les performances doivent être améliorées à mesure que la taille du modèle augmente, mais est-ce vraiment le cas ? En fait, pour certaines tâches, les performances peuvent diminuer à mesure que le modèle devient plus grand, comme le montre la figure ci-dessous
Plusieurs chercheurs de l'Université de New York ont également organisé un concours pour trouver les tâches où les performances du modèle se détériore à mesure que le modèle devient plus grand.
Par exemple, dans une tâche de questions et réponses, si vous ajoutez vos croyances avec la question, le grand modèle sera plus facilement affecté. Les étudiants intéressés peuvent y prêter attention.
M. Mei Yiqi a dit un jour : « Le soi-disant grand érudit ne signifie pas un bâtiment, mais un maître. » L'auteur termine cet article par une analogie inappropriée : la soi-disant grande personne modèle, c'est le cas. Cela ne veut pas dire qu’il existe des paramètres, mais cela signifie qu’il existe des capacités.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!