Maison >Périphériques technologiques >IA >ICML 2024 | Révéler le mécanisme de l'apprentissage non linéaire des transformateurs et de la généralisation dans l'apprentissage contextuel
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
L'auteur de cet article, Li Hongkang, est doctorant au Département de génie électrique, informatique et des systèmes du Rensselaer Polytechnic Institute aux États-Unis. Il est diplômé de l'Université des sciences et technologies de Chine avec un baccalauréat. Les domaines de recherche incluent la théorie de l'apprentissage profond, la théorie des grands modèles de langage, l'apprentissage automatique statistique, etc. Il a publié de nombreux articles lors de conférences de premier plan sur l'IA telles que ICLR/ICML/Neurips.
L'apprentissage en contexte (ICL) a démontré de puissantes capacités dans de nombreuses applications liées au LLM, mais son analyse théorique est encore relativement limitée. Les gens essaient encore de comprendre pourquoi LLM basé sur l'architecture Transformer peut présenter les capacités d'ICL.
Récemment, une équipe de l'Université polytechnique de Rensselaer et d'IBM Research a analysé l'ICL de Transformer avec un module d'attention non linéaire (attention) et un perceptron multicouche (MLP) du point de vue de la capacité de la théorie de l'optimisation et de la généralisation. En particulier, ils ont théoriquement prouvé le mécanisme ICL dans lequel un transformateur monocouche sélectionne d'abord des exemples contextuels en fonction de la requête dans la couche d'attention, puis effectue des prédictions basées sur l'intégration d'étiquettes dans la couche MLP. Cet article a été inclus dans ICML 2024.
Titre de l'article : Comment les transformateurs non linéaires apprennent et généralisent-ils dans l'apprentissage en contexte ?
, formant ainsi une invite de test : comme entrée du modèle pour guider le modèle Faire des déductions correctes. Cette méthode est différente de la méthode classique de réglage fin d'un modèle pré-entraîné. Elle ne nécessite pas de modifier le poids du modèle, ce qui le rend plus efficace.
Progrès dans les travaux théoriques de l'ICL
De nombreux travaux théoriques récents sont basés sur le cadre de recherche proposé par [1], c'est-à-dire que les gens peuvent directement utiliser le format d'invite pour entraîner le Transformateur (cette étape peut également être comprise comme une simulation Un mode de pré-formation LLM simplifié), donnant ainsi au modèle des capacités ICL. Les travaux théoriques existants se concentrent sur le pouvoir expressif du modèle [2]. Ils ont découvert qu'il était possible de trouver un Transformer avec des paramètres « parfaits » capables d'effectuer des opérations ICL via des opérations avancées et même d'exécuter implicitement des algorithmes d'apprentissage automatique classiques tels que la descente de gradient. Mais ces travaux ne peuvent pas expliquer pourquoi Transformer peut être entraîné à des paramètres aussi « parfaits » avec des capacités ICL. Par conséquent, certains travaux tentent également de comprendre le mécanisme ICL du point de vue de la formation ou de la généralisation de Transformer [3,4]. Cependant, en raison de la complexité de l'analyse de la structure du Transformateur, ces travaux se limitent actuellement à l'étude des tâches de régression linéaire, et les modèles considérés omettent généralement la partie non linéaire du Transformateur.Cet article analyse les capacités et les mécanismes ICL de Transformer avec attention non linéaire et MLP du point de vue de la théorie de l'optimisation et de la généralisation :
Basé sur un modèle de classification simplifié, cet article quantifie spécifiquement comment les caractéristiques des données affectent un capacités de généralisation ICL dans le domaine et hors domaine (OOD) du transformateur à tête unique de couche.Cet article explique plus en détail comment ICL est implémenté via Transformer formé. Sur la base des caractéristiques du Transformer formé, cet article analyse également la faisabilité de l'utilisation de l'élagage de modèle basé sur l'ampleur lors de l'inférence ICL.
Partie théorique
Description du problème
Cet article considère un problème de classification binaire, c'est-à-dire la cartographie à à travers une tâche . Afin de résoudre un tel problème, cet article crée une invite d'apprentissage. L'invite ici est représentée comme :
Formation du réseau en tant que transformateur monocouche à tête unique :
Le processus de pré-formation consiste à résoudre une minimisation empirique des risques pour toutes les tâches de formation. La fonction de perte utilise la perte de charnière, qui convient aux problèmes de classification binaire, et l'algorithme de formation est la descente de gradient stochastique.
Cet article définit deux cas de généralisation ICL. L'une est dans le domaine, c'est-à-dire que la distribution des données de test est la même que celle des données de formation lors de la généralisation. Notez que dans ce cas, la tâche de test ne doit pas nécessairement être la même que la tâche de formation, c'est-à-dire la tâche de formation. la généralisation de tâches invisibles a été envisagée ici. L'autre est hors domaine, c'est-à-dire que la distribution des données de test et de formation est différente.
Cet article implique également l'analyse de l'élagage basé sur l'amplitude lors de l'inférence ICL. La méthode d'élagage fait ici référence à la suppression de chaque neurone obtenu par entraînement de petit à grand en fonction de son amplitude.
Construction des données et des tâches
Veuillez vous référer à la section 3.2 du texte original pour cette partie. Voici juste un aperçu. L'analyse théorique de cet article est basée sur la voie d'apprentissage des fonctionnalités récemment populaire, c'est-à-dire que les données sont généralement supposées être des modèles séparables (généralement orthogonaux), dérivant ainsi des changements de gradient basés sur différents modèles. Cet article définit d'abord un ensemble de modèles pertinents dans le domaine (IDR) utilisés pour déterminer la classification des tâches dans le domaine, ainsi qu'un ensemble de modèles non pertinents dans le domaine (IDI) indépendants des tâches. Ces modèles sont orthogonaux à chacun. autre. Il existe des modèles IDR et des modèles IDI. Un est représenté comme la somme d’un modèle IDR et d’un modèle IDI. Une tâche dans le domaine est définie comme un problème de classification basé sur deux modèles IDR.
De même, cet article peut décrire les données et les tâches lorsque l'OOD est généralisé en définissant un modèle hors domaine pertinent (ODR) et un modèle hors domaine non pertinent (ODI).
La représentation de l'invite dans cet article peut être expliquée par l'exemple de la figure ci-dessous, où est le modèle IDR et est le modèle IDI. La tâche effectuée ici est de classer en fonction de dans x. Si c'est , alors son étiquette est + 1, ce qui correspond à +q. Si c'est , alors son étiquette est - 1, ce qui correspond à -q. α, α' sont définis comme les exemples de contexte dans les invites de formation et de test qui sont respectivement identiques au modèle IDR/ODR de la requête. Dans l'exemple ci-dessous, .
Résultats théoriques
Tout d'abord, pour la situation dans le domaine, cet article donne d'abord une condition 3.2 pour stipuler les conditions que la tâche de formation doit remplir, c'est-à-dire que la tâche de formation doit couvrir tous les modèles IDR et Étiquettes. Ensuite, les résultats dans le domaine sont les suivants :
Cela montre : 1. Le nombre de tâches de formation ne doit représenter qu'une petite proportion de toutes les tâches qui remplissent la condition 3.2, et nous pouvons obtenir une bonne généralisation des tâches invisibles. 2. Plus la proportion de modèles IDR liés à la tâche actuelle dans l'invite est élevée, la généralisation idéale peut être obtenue avec moins de données d'entraînement, moins de nombre d'itérations d'entraînement et des invites d'entraînement/test plus courtes.
Next est le résultat d'une généralisation hors domaine.
Il est expliqué ici que si le modèle ODR est une combinaison linéaire du modèle IDR et que la somme des coefficients est supérieure à 1, alors la généralisation OOD ICL peut obtenir l'effet idéal à ce moment-là. Ce résultat donne le lien intrinsèque entre les données de formation et de test requis pour une bonne généralisation de l'OOD dans le cadre d'ICL. Ce théorème a également été vérifié par des expériences sur GPT-2. Comme le montre la figure ci-dessous, lorsque la somme des coefficients dans (12) est supérieure à 1, la classification OOD peut obtenir des résultats idéaux. Dans le même temps, lorsque , c'est-à-dire lorsque la proportion de modèles ODR/IDR liés aux tâches de classification dans l'invite est plus élevée, la longueur de contexte requise est plus petite.
Ensuite, cet article donne les résultats de généralisation ICL avec un élagage basé sur la magnitude.
Ce résultat montre que, tout d'abord, certains neurones (proportion constante) des entraînés ont de petites amplitudes, tandis que les autres sont relativement grands (équation 14). Lorsque nous élaguons uniquement les petits neurones, il n'y a pratiquement aucun impact sur les résultats de la généralisation. Lorsque la proportion d'élagage augmente par rapport à l'élagage des gros neurones, l'erreur de généralisation augmente de manière significative (Formule 15, 16). L'expérience suivante vérifie le théorème 3.7. La ligne verticale bleu clair de la figure A ci-dessous représente les obtenus par l'entraînement et présente les résultats de la Formule 14. Cependant, l’élagage des petits neurones n’aggravera pas la généralisation. Ce résultat est cohérent avec la théorie. La figure B montre que lorsqu'il y a davantage de contexte lié à la tâche dans l'invite, nous pouvons autoriser un taux d'élagage plus élevé pour obtenir les mêmes performances de généralisation.
Mécanisme ICL
En caractérisant le processus de pré-entraînement, cet article obtient le mécanisme interne du transformateur non linéaire monocouche à tête unique pour ICL, qui se trouve dans la section 4 de l'article original. Ce processus peut être représenté par le diagramme ci-dessous.
En bref, la couche d'attention sélectionnera le même contexte que le modèle ODR/IDR de la requête, en leur donnant presque tous les poids d'attention, puis la couche MLP se concentrera sur la réalisation de la classification finale basée sur l'intégration de l'étiquette. dans la sortie de la couche d'attention.
Résumé
Cet article explique le mécanisme de formation du transformateur non linéaire dans ICL, ainsi que sa capacité de généralisation à de nouvelles tâches et aux données de changement de distribution. Les résultats théoriques ont une certaine importance pratique pour la conception d'un algorithme de sélection rapide et d'un algorithme d'élagage LLM.
参考文献
[1] Garg, et al., Neurips 2022. "Que peuvent apprendre les transformateurs en contexte ? une étude de cas de classes de fonctions simples."
[2] Von Oswald et al., ICML 2023. "Les transformateurs apprennent en contexte par descente de gradient."
[4] Huang et al., ICML 2024. "Convergence en contexte des transformateurs."
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!