Maison  >  Article  >  Périphériques technologiques  >  770 millions de paramètres, dépassant les 540 milliards de PaLM ! UW Google propose une "distillation étape par étape", qui ne nécessite que 80 % des données de formation ACL 2023 |

770 millions de paramètres, dépassant les 540 milliards de PaLM ! UW Google propose une "distillation étape par étape", qui ne nécessite que 80 % des données de formation ACL 2023 |

WBOY
WBOYavant
2023-10-07 16:49:06457parcourir

Les grands modèles de langage excellent en termes de performances et sont capables de résoudre de nouvelles tâches avec zéro ou quelques indices. Cependant, dans le déploiement réel d'applications, LLM n'est pas très pratique car il a une faible efficacité d'utilisation de la mémoire et nécessite beaucoup de ressources informatiques. Par exemple, l'exécution d'un service de modèle de langage avec 175 milliards de paramètres nécessite au moins 350 Go de mémoire vidéo, et l'actuelle. La plupart des modèles de langage ont dépassé 500 milliards de paramètres. De nombreuses équipes de recherche ne disposent pas de suffisamment de ressources pour les exécuter et ne peuvent pas répondre aux faibles performances de latence des applications réelles.

Certaines études utilisent également des données étiquetées manuellement ou une distillation à l'aide d'étiquettes générées par LLM pour entraîner des modèles plus petits et spécifiques à des tâches, mais le réglage fin et la distillation nécessitent une grande quantité de données d'entraînement pour obtenir des performances comparables à celles de LLM.

Afin de résoudre le problème des besoins en ressources pour les grands modèles, l'Université de Washington et Google ont collaboré pour proposer un nouveau mécanisme de distillation appelé « Distilling Step-by-Step ». Grâce à la distillation étape par étape, la taille du modèle distillé est plus petite que le modèle d'origine, mais les performances sont meilleures et moins de données d'entraînement sont nécessaires pendant le processus de réglage fin et de distillation

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Veuillez cliquer sur Afficher l'article sur le lien suivant : https://arxiv.org/abs/2305.02301 Le mécanisme de distillation de distribution utilise les raisons de prédiction (justification) extraites de LLM comme informations de supervision supplémentaires pour la formation de petits modèles dans un cadre multitâche.

Après avoir mené des expériences sur 4 benchmarks PNL, nous avons constaté :

1 Par rapport au réglage fin et à la distillation, ce mécanisme permet d'obtenir de meilleures performances avec moins d'échantillons d'entraînement 7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Par rapport à l'invite LLM avec peu d'échantillons ; tailler des modèles pour obtenir de meilleures performances

3. Dans le même temps, réduire la taille du modèle et le volume de données peut également obtenir de meilleures performances que LLM.

Dans l'expérience, le modèle 770M T5 après réglage fin a surpassé le modèle 540B PaLM avec quelques exemples d'indices dans le test de référence en utilisant seulement 80 % des données disponibles, tandis que le même modèle T5 avec réglage fin standard avait même du mal à utiliser 100 % de l'ensemble de données correspond.

Méthode de distillation

L'idée clé de la distillation par distribution est d'extraire progressivement les raisons de prédiction qui sont informatives et décrites en langage naturel, c'est-à-dire l'étape de raisonnement intermédiaire, pour expliquer le lien entre le problème d'entrée et la sortie du modèle , et utiliser ces données pour être plus efficace. Former de petits modèles

La distillation de distribution comprend principalement deux étapes :

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

1. Extraire les principes (justification) du LLM

Les chercheurs utilisent une chaîne de réflexion en quelques étapes ( CoT) vous invite à extraire des étapes intermédiaires de LLM Predict. Après avoir déterminé la tâche cible, préparez d'abord quelques échantillons dans l'invite de saisie LLM. Chaque exemple se compose d'un triplet, comprenant une entrée, un principe et une sortie

Après avoir saisi les invites, LLM est capable d'imiter la démonstration du triplet pour générer des principes prédictifs pour d'autres nouvelles questions, par exemple, dans la tâche de questions et réponses de bon sens. , étant donné la

question de saisie :

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Sammy veut aller dans un endroit où les gens se rassemblent. Où choisira-t-il ? Choix de réponses : (a) zones peuplées, (b) piste de course, (c) désert, (d) appartement, (e) barrage routier)

Après un affinement progressif, LLM peut donner la bonne réponse à la question "(a) population "Zones densément peuplées" et donnez les raisons pour lesquelles vous avez répondu à la question "La réponse doit être un endroit avec de nombreuses personnes. Parmi les choix ci-dessus, seules les zones densément peuplées comptent de nombreuses personnes." Après un affinement progressif, LLM a pu conclure que la bonne réponse est « (a) une zone densément peuplée » et a fourni la raison pour laquelle il a répondu à la question « La réponse doit être un endroit avec de nombreuses personnes. Parmi les choix ci-dessus, seules les zones densément peuplées avoir beaucoup de monde." Des gens."

En fournissant des exemples CoT associés à une justification dans les invites, la capacité d'apprentissage contextuel permet à LLM de générer les raisons de réponse correspondantes pour les types de questions non rencontrés

2. Former de petits modèles

En construisant le processus de formation pour les problèmes multitâches, les raisons de prédiction peuvent être extraites et incorporées dans le petit modèle d'entraînement

En plus de la tâche de prédiction d'étiquette standard, les chercheurs ont également utilisé une nouvelle tâche de génération de raisons pour entraîner le petit modèle, afin que le modèle puisse apprendre à générer des utilisateurs. une étape d'inférence intermédiaire pour la prédiction et guide le modèle pour mieux prédire l'étiquette de résultat.

Distinguez les tâches de prédiction d'étiquette et de génération de raison en ajoutant les préfixes de tâche « étiquette » et « justification » à l'invite de saisie.

Résultats expérimentaux

Dans l'expérience, les chercheurs ont sélectionné le modèle PaLM avec 540 milliards de paramètres comme référence LLM et ont utilisé le modèle T5 comme petit modèle en aval lié aux tâches.

Dans cette étude, nous avons mené des expériences sur quatre ensembles de données de référence, à savoir e-SNLI et ANLI pour le raisonnement en langage naturel, CQA pour les réponses aux questions de bon sens et SVAMP pour les questions d'applications mathématiques arithmétiques. Nous avons mené des expériences sur ces trois tâches PNL différentes

Moins de données d'entraînement

La méthode de distillation par étapes surpasse le réglage standard des performances et nécessite moins de données d'entraînement

Dans l'ensemble de données e-SNLI, de meilleures performances que la norme le réglage fin est obtenu en utilisant 12,5 % de l'ensemble de données complet, et seulement 75 %, 25 % et 20 % des données de formation sont requises respectivement sur ANLI, CQA et SVAMP.

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

Par rapport au réglage fin standard sur des ensembles de données étiquetés par des humains de différentes tailles à l'aide d'un modèle T5 de 220 M, la distillation de distribution surpasse le réglage fin standard sur l'ensemble de données complet en utilisant moins d'exemples de formation sur tous les ensembles de données

Déploiement plus petit taille du modèle

Par rapport au LLM provoqué par CoT à quelques échantillons, la taille du modèle obtenue par distillation par distribution est beaucoup plus petite, mais les performances sont meilleures.

Sur l'ensemble de données e-SNLI, l'utilisation du modèle 220M T5 permet d'obtenir de meilleures performances que le PaLM 540B ; sur ANLI, l'utilisation du modèle 770M T5 permet d'obtenir de meilleures performances que le PaLM 540B, et la taille du modèle n'est que de 1/700

"Modèle plus petit, moins de données"

Il a été observé que le réglage fin standard ne peut pas atteindre le niveau de performance de PaLM même en utilisant l'ensemble de données complet à 100 %, ce qui montre que la distillation pas à pas peut simultanément réduire la taille du modèle et le volume des données d'entraînement, atteignant des performances au-delà du LLM

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer