Maison >Périphériques technologiques >IA >ICML 2024 | Révéler le mécanisme de l'apprentissage non linéaire des transformateurs et de la généralisation dans l'apprentissage contextuel

ICML 2024 | Révéler le mécanisme de l'apprentissage non linéaire des transformateurs et de la généralisation dans l'apprentissage contextuel

WBOY
WBOYoriginal
2024-06-29 00:44:41474parcourir
ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article, Li Hongkang, est doctorant au Département de génie électrique, informatique et des systèmes du Rensselaer Polytechnic Institute aux États-Unis. Il est diplômé de l'Université des sciences et technologies de Chine avec un baccalauréat. Les domaines de recherche incluent la théorie de l'apprentissage profond, la théorie des grands modèles de langage, l'apprentissage automatique statistique, etc. Il a publié de nombreux articles lors de conférences de premier plan sur l'IA telles que ICLR/ICML/Neurips.

L'apprentissage en contexte (ICL) a démontré de puissantes capacités dans de nombreuses applications liées au LLM, mais son analyse théorique est encore relativement limitée. Les gens essaient encore de comprendre pourquoi LLM basé sur l'architecture Transformer peut présenter les capacités d'ICL.

Récemment, une équipe de l'Université polytechnique de Rensselaer et d'IBM Research a analysé l'ICL de Transformer avec un module d'attention non linéaire (attention) et un perceptron multicouche (MLP) du point de vue de la capacité de la théorie de l'optimisation et de la généralisation. En particulier, ils ont théoriquement prouvé le mécanisme ICL dans lequel un transformateur monocouche sélectionne d'abord des exemples contextuels en fonction de la requête dans la couche d'attention, puis effectue des prédictions basées sur l'intégration d'étiquettes dans la couche MLP. Cet article a été inclus dans ICML 2024.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

  • Titre de l'article : Comment les transformateurs non linéaires apprennent et généralisent-ils dans l'apprentissage en contexte ?

  • Apprentissage contextuel (ICL)
  • L'apprentissage contextuel (ICL) est un nouveau paradigme d'apprentissage très populaire dans les grands modèles de langage (LLM). Il fait spécifiquement référence à l'ajout de N exemples de tests d'échantillons de test (contexte) avant la requête de test (requête de test)
  • , c'est-à-dire la combinaison de l'entrée de test
et de la sortie de test

, formant ainsi une invite de test : comme entrée du modèle pour guider le modèle Faire des déductions correctes. Cette méthode est différente de la méthode classique de réglage fin d'un modèle pré-entraîné. Elle ne nécessite pas de modifier le poids du modèle, ce qui le rend plus efficace.

Progrès dans les travaux théoriques de l'ICL

De nombreux travaux théoriques récents sont basés sur le cadre de recherche proposé par [1], c'est-à-dire que les gens peuvent directement utiliser le format d'invite pour entraîner le Transformateur (cette étape peut également être comprise comme une simulation Un mode de pré-formation LLM simplifié), donnant ainsi au modèle des capacités ICL. Les travaux théoriques existants se concentrent sur le pouvoir expressif du modèle [2]. Ils ont découvert qu'il était possible de trouver un Transformer avec des paramètres « parfaits » capables d'effectuer des opérations ICL via des opérations avancées et même d'exécuter implicitement des algorithmes d'apprentissage automatique classiques tels que la descente de gradient. Mais ces travaux ne peuvent pas expliquer pourquoi Transformer peut être entraîné à des paramètres aussi « parfaits » avec des capacités ICL. Par conséquent, certains travaux tentent également de comprendre le mécanisme ICL du point de vue de la formation ou de la généralisation de Transformer [3,4]. Cependant, en raison de la complexité de l'analyse de la structure du Transformateur, ces travaux se limitent actuellement à l'étude des tâches de régression linéaire, et les modèles considérés omettent généralement la partie non linéaire du Transformateur.

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制Cet article analyse les capacités et les mécanismes ICL de Transformer avec attention non linéaire et MLP du point de vue de la théorie de l'optimisation et de la généralisation : ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

Basé sur un modèle de classification simplifié, cet article quantifie spécifiquement comment les caractéristiques des données affectent un capacités de généralisation ICL dans le domaine et hors domaine (OOD) du transformateur à tête unique de couche.

Cet article explique plus en détail comment ICL est implémenté via Transformer formé.

Sur la base des caractéristiques du Transformer formé, cet article analyse également la faisabilité de l'utilisation de l'élagage de modèle basé sur l'ampleur lors de l'inférence ICL.

    Partie théorique

    Description du problème

    Cet article considère un problème de classification binaire, c'est-à-dire la cartographie ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 à ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 à travers une tâche ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制. Afin de résoudre un tel problème, cet article crée une invite d'apprentissage. L'invite ici est représentée comme :

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Formation du réseau en tant que transformateur monocouche à tête unique :

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Le processus de pré-formation consiste à résoudre une minimisation empirique des risques pour toutes les tâches de formation. La fonction de perte utilise la perte de charnière, qui convient aux problèmes de classification binaire, et l'algorithme de formation est la descente de gradient stochastique.

    Cet article définit deux cas de généralisation ICL. L'une est dans le domaine, c'est-à-dire que la distribution des données de test est la même que celle des données de formation lors de la généralisation. Notez que dans ce cas, la tâche de test ne doit pas nécessairement être la même que la tâche de formation, c'est-à-dire la tâche de formation. la généralisation de tâches invisibles a été envisagée ici. L'autre est hors domaine, c'est-à-dire que la distribution des données de test et de formation est différente.

    Cet article implique également l'analyse de l'élagage basé sur l'amplitude lors de l'inférence ICL. La méthode d'élagage fait ici référence à la suppression de chaque neurone obtenu par entraînement de petit à grand en fonction de son amplitude.

    Construction des données et des tâches

    Veuillez vous référer à la section 3.2 du texte original pour cette partie. Voici juste un aperçu. L'analyse théorique de cet article est basée sur la voie d'apprentissage des fonctionnalités récemment populaire, c'est-à-dire que les données sont généralement supposées être des modèles séparables (généralement orthogonaux), dérivant ainsi des changements de gradient basés sur différents modèles. Cet article définit d'abord un ensemble de modèles pertinents dans le domaine (IDR) utilisés pour déterminer la classification des tâches dans le domaine, ainsi qu'un ensemble de modèles non pertinents dans le domaine (IDI) indépendants des tâches. Ces modèles sont orthogonaux à chacun. autre. Il existe des ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 modèles IDR et des ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 modèles IDI. Un ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 est représenté comme la somme d’un modèle IDR et d’un modèle IDI. Une tâche dans le domaine est définie comme un problème de classification basé sur deux modèles IDR.

    De même, cet article peut décrire les données et les tâches lorsque l'OOD est généralisé en définissant un modèle hors domaine pertinent (ODR) et un modèle hors domaine non pertinent (ODI).

    La représentation de l'invite dans cet article peut être expliquée par l'exemple de la figure ci-dessous, où ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 est le modèle IDR et ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 est le modèle IDI. La tâche effectuée ici est de classer en fonction de ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 dans x. Si c'est ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制, alors son étiquette est + 1, ce qui correspond à +q. Si c'est ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制, alors son étiquette est - 1, ce qui correspond à -q. α, α' sont définis comme les exemples de contexte dans les invites de formation et de test qui sont respectivement identiques au modèle IDR/ODR de la requête. Dans l'exemple ci-dessous, ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Résultats théoriques

    Tout d'abord, pour la situation dans le domaine, cet article donne d'abord une condition 3.2 pour stipuler les conditions que la tâche de formation doit remplir, c'est-à-dire que la tâche de formation doit couvrir tous les modèles IDR et Étiquettes. Ensuite, les résultats dans le domaine sont les suivants :

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Cela montre : 1. Le nombre de tâches de formation ne doit représenter qu'une petite proportion de toutes les tâches qui remplissent la condition 3.2, et nous pouvons obtenir une bonne généralisation des tâches invisibles. 2. Plus la proportion de modèles IDR liés à la tâche actuelle dans l'invite est élevée, la généralisation idéale peut être obtenue avec moins de données d'entraînement, moins de nombre d'itérations d'entraînement et des invites d'entraînement/test plus courtes.

    Next est le résultat d'une généralisation hors domaine.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Il est expliqué ici que si le modèle ODR est une combinaison linéaire du modèle IDR et que la somme des coefficients est supérieure à 1, alors la généralisation OOD ICL peut obtenir l'effet idéal à ce moment-là. Ce résultat donne le lien intrinsèque entre les données de formation et de test requis pour une bonne généralisation de l'OOD dans le cadre d'ICL. Ce théorème a également été vérifié par des expériences sur GPT-2. Comme le montre la figure ci-dessous, lorsque la somme des coefficients ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 dans (12) est supérieure à 1, la classification OOD peut obtenir des résultats idéaux. Dans le même temps, lorsque ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制, c'est-à-dire lorsque la proportion de modèles ODR/IDR liés aux tâches de classification dans l'invite est plus élevée, la longueur de contexte requise est plus petite.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Ensuite, cet article donne les résultats de généralisation ICL avec un élagage basé sur la magnitude.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Ce résultat montre que, tout d'abord, certains neurones (proportion constante) des ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制 entraînés ont de petites amplitudes, tandis que les autres sont relativement grands (équation 14). Lorsque nous élaguons uniquement les petits neurones, il n'y a pratiquement aucun impact sur les résultats de la généralisation. Lorsque la proportion d'élagage augmente par rapport à l'élagage des gros neurones, l'erreur de généralisation augmente de manière significative (Formule 15, 16). L'expérience suivante vérifie le théorème 3.7. La ligne verticale bleu clair de la figure A ci-dessous représente les ICML 2024 | Révéler le mécanisme de lapprentissage non linéaire des transformateurs et de la généralisation dans lapprentissage contextuel obtenus par l'entraînement et présente les résultats de la Formule 14. Cependant, l’élagage des petits neurones n’aggravera pas la généralisation. Ce résultat est cohérent avec la théorie. La figure B montre que lorsqu'il y a davantage de contexte lié à la tâche dans l'invite, nous pouvons autoriser un taux d'élagage plus élevé pour obtenir les mêmes performances de généralisation.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    Mécanisme ICL

    En caractérisant le processus de pré-entraînement, cet article obtient le mécanisme interne du transformateur non linéaire monocouche à tête unique pour ICL, qui se trouve dans la section 4 de l'article original. Ce processus peut être représenté par le diagramme ci-dessous.

    ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

    En bref, la couche d'attention sélectionnera le même contexte que le modèle ODR/IDR de la requête, en leur donnant presque tous les poids d'attention, puis la couche MLP se concentrera sur la réalisation de la classification finale basée sur l'intégration de l'étiquette. dans la sortie de la couche d'attention.

    Résumé

    Cet article explique le mécanisme de formation du transformateur non linéaire dans ICL, ainsi que sa capacité de généralisation à de nouvelles tâches et aux données de changement de distribution. Les résultats théoriques ont une certaine importance pratique pour la conception d'un algorithme de sélection rapide et d'un algorithme d'élagage LLM.

    参考文献

    [1] Garg, et al., Neurips 2022. "Que peuvent apprendre les transformateurs en contexte ? une étude de cas de classes de fonctions simples."

    [2] Von Oswald et al., ICML 2023. "Les transformateurs apprennent en contexte par descente de gradient."

    [4] Huang et al., ICML 2024. "Convergence en contexte des transformateurs."

    Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

    Déclaration:
    Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn