Maison > Article > Périphériques technologiques > 770 millions de paramètres, dépassant les 540 milliards de PaLM ! UW Google propose une "distillation étape par étape", qui ne nécessite que 80 % des données de formation ACL 2023 |
Les grands modèles de langage excellent en termes de performances et sont capables de résoudre de nouvelles tâches avec zéro ou quelques indices. Cependant, dans le déploiement réel d'applications, LLM n'est pas très pratique car il a une faible efficacité d'utilisation de la mémoire et nécessite beaucoup de ressources informatiques. Par exemple, l'exécution d'un service de modèle de langage avec 175 milliards de paramètres nécessite au moins 350 Go de mémoire vidéo, et l'actuelle. La plupart des modèles de langage ont dépassé 500 milliards de paramètres. De nombreuses équipes de recherche ne disposent pas de suffisamment de ressources pour les exécuter et ne peuvent pas répondre aux faibles performances de latence des applications réelles.
Certaines études utilisent également des données étiquetées manuellement ou une distillation à l'aide d'étiquettes générées par LLM pour entraîner des modèles plus petits et spécifiques à des tâches, mais le réglage fin et la distillation nécessitent une grande quantité de données d'entraînement pour obtenir des performances comparables à celles de LLM.
Afin de résoudre le problème des besoins en ressources pour les grands modèles, l'Université de Washington et Google ont collaboré pour proposer un nouveau mécanisme de distillation appelé « Distilling Step-by-Step ». Grâce à la distillation étape par étape, la taille du modèle distillé est plus petite que le modèle d'origine, mais les performances sont meilleures et moins de données d'entraînement sont nécessaires pendant le processus de réglage fin et de distillation
Veuillez cliquer sur Afficher l'article sur le lien suivant : https://arxiv.org/abs/2305.02301 Le mécanisme de distillation de distribution utilise les raisons de prédiction (justification) extraites de LLM comme informations de supervision supplémentaires pour la formation de petits modèles dans un cadre multitâche.
Après avoir mené des expériences sur 4 benchmarks PNL, nous avons constaté :
1 Par rapport au réglage fin et à la distillation, ce mécanisme permet d'obtenir de meilleures performances avec moins d'échantillons d'entraînement
Par rapport à l'invite LLM avec peu d'échantillons ; tailler des modèles pour obtenir de meilleures performances3. Dans le même temps, réduire la taille du modèle et le volume de données peut également obtenir de meilleures performances que LLM. Dans l'expérience, le modèle 770M T5 après réglage fin a surpassé le modèle 540B PaLM avec quelques exemples d'indices dans le test de référence en utilisant seulement 80 % des données disponibles, tandis que le même modèle T5 avec réglage fin standard avait même du mal à utiliser 100 % de l'ensemble de données correspond. Méthode de distillationL'idée clé de la distillation par distribution est d'extraire progressivement les raisons de prédiction qui sont informatives et décrites en langage naturel, c'est-à-dire l'étape de raisonnement intermédiaire, pour expliquer le lien entre le problème d'entrée et la sortie du modèle , et utiliser ces données pour être plus efficace. Former de petits modèlesLa distillation de distribution comprend principalement deux étapes :
1. Extraire les principes (justification) du LLMLes chercheurs utilisent une chaîne de réflexion en quelques étapes ( CoT) vous invite à extraire des étapes intermédiaires de LLM Predict. Après avoir déterminé la tâche cible, préparez d'abord quelques échantillons dans l'invite de saisie LLM. Chaque exemple se compose d'un triplet, comprenant une entrée, un principe et une sortie
Après avoir saisi les invites, LLM est capable d'imiter la démonstration du triplet pour générer des principes prédictifs pour d'autres nouvelles questions, par exemple, dans la tâche de questions et réponses de bon sens. , étant donné la
question de saisie : Sammy veut aller dans un endroit où les gens se rassemblent. Où choisira-t-il ? Choix de réponses : (a) zones peuplées, (b) piste de course, (c) désert, (d) appartement, (e) barrage routier)Après un affinement progressif, LLM peut donner la bonne réponse à la question "(a) population "Zones densément peuplées" et donnez les raisons pour lesquelles vous avez répondu à la question "La réponse doit être un endroit avec de nombreuses personnes. Parmi les choix ci-dessus, seules les zones densément peuplées comptent de nombreuses personnes." Après un affinement progressif, LLM a pu conclure que la bonne réponse est « (a) une zone densément peuplée » et a fourni la raison pour laquelle il a répondu à la question « La réponse doit être un endroit avec de nombreuses personnes. Parmi les choix ci-dessus, seules les zones densément peuplées avoir beaucoup de monde." Des gens."
En fournissant des exemples CoT associés à une justification dans les invites, la capacité d'apprentissage contextuel permet à LLM de générer les raisons de réponse correspondantes pour les types de questions non rencontrés
2. Former de petits modèles
En construisant le processus de formation pour les problèmes multitâches, les raisons de prédiction peuvent être extraites et incorporées dans le petit modèle d'entraînement
En plus de la tâche de prédiction d'étiquette standard, les chercheurs ont également utilisé une nouvelle tâche de génération de raisons pour entraîner le petit modèle, afin que le modèle puisse apprendre à générer des utilisateurs. une étape d'inférence intermédiaire pour la prédiction et guide le modèle pour mieux prédire l'étiquette de résultat.
Distinguez les tâches de prédiction d'étiquette et de génération de raison en ajoutant les préfixes de tâche « étiquette » et « justification » à l'invite de saisie.
Dans l'expérience, les chercheurs ont sélectionné le modèle PaLM avec 540 milliards de paramètres comme référence LLM et ont utilisé le modèle T5 comme petit modèle en aval lié aux tâches.
Dans cette étude, nous avons mené des expériences sur quatre ensembles de données de référence, à savoir e-SNLI et ANLI pour le raisonnement en langage naturel, CQA pour les réponses aux questions de bon sens et SVAMP pour les questions d'applications mathématiques arithmétiques. Nous avons mené des expériences sur ces trois tâches PNL différentes
Moins de données d'entraînement
La méthode de distillation par étapes surpasse le réglage standard des performances et nécessite moins de données d'entraînement
Dans l'ensemble de données e-SNLI, de meilleures performances que la norme le réglage fin est obtenu en utilisant 12,5 % de l'ensemble de données complet, et seulement 75 %, 25 % et 20 % des données de formation sont requises respectivement sur ANLI, CQA et SVAMP.
Par rapport au réglage fin standard sur des ensembles de données étiquetés par des humains de différentes tailles à l'aide d'un modèle T5 de 220 M, la distillation de distribution surpasse le réglage fin standard sur l'ensemble de données complet en utilisant moins d'exemples de formation sur tous les ensembles de données
Déploiement plus petit taille du modèle
Par rapport au LLM provoqué par CoT à quelques échantillons, la taille du modèle obtenue par distillation par distribution est beaucoup plus petite, mais les performances sont meilleures.
Sur l'ensemble de données e-SNLI, l'utilisation du modèle 220M T5 permet d'obtenir de meilleures performances que le PaLM 540B ; sur ANLI, l'utilisation du modèle 770M T5 permet d'obtenir de meilleures performances que le PaLM 540B, et la taille du modèle n'est que de 1/700
"Modèle plus petit, moins de données"
Il a été observé que le réglage fin standard ne peut pas atteindre le niveau de performance de PaLM même en utilisant l'ensemble de données complet à 100 %, ce qui montre que la distillation pas à pas peut simultanément réduire la taille du modèle et le volume des données d'entraînement, atteignant des performances au-delà du LLM
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!