Maison  >  Article  >  Périphériques technologiques  >  ICML 2024 | Pollution des fonctionnalités : les réseaux de neurones apprennent des fonctionnalités non pertinentes et ne parviennent pas à généraliser

ICML 2024 | Pollution des fonctionnalités : les réseaux de neurones apprennent des fonctionnalités non pertinentes et ne parviennent pas à généraliser

WBOY
WBOYoriginal
2024-06-24 14:17:11829parcourir

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

  • Titre de l'article : Contamination des fonctionnalités : les réseaux de neurones apprennent des fonctionnalités non corrélées et ne parviennent pas à généraliser
  • Lien de l'article : https://arxiv.org/pdf/2406.03345
  • Lien du code : https:/ /github.com/trzhang0116/feature-contamination

Avec le grand succès des grands modèles représentés par GPT ces dernières années, le paradigme d'apprentissage automatique du réseau neuronal profond + SGD + mise à l'échelle a une fois de plus prouvé sa domination dans le domaine du statut de l'IA . Pourquoi les paradigmes basés sur les réseaux de neurones profonds réussissent-ils ? L’opinion la plus répandue est que les réseaux de neurones ont la capacité d’apprendre automatiquement des caractéristiques abstraites et généralisables à partir de données d’entrée massives de haute dimension. Malheureusement, limitée par les lacunes des méthodes d'analyse et des outils mathématiques actuels, notre compréhension actuelle de « comment les réseaux de neurones (profonds) mettent en œuvre un tel processus d'apprentissage de fonctionnalités » n'est pas encore très approfondie. Pour cette raison, la plupart des recherches pertinentes actuelles dans la communauté universitaire se limitent encore à « expliquer » les caractéristiques que le modèle a apprises, et il est difficile d'obtenir des modèles plus efficaces en matière de données et plus généralisables par « l'intervention » dans son processus d’apprentissage. Lorsque nous discutons du processus d'apprentissage des fonctionnalités des réseaux de neurones, l'une des questions les plus fondamentales est la suivante : quelles fonctionnalités le réseau de neurones apprendra-t-il à partir des données d'entrée ? Du point de vue des objectifs, l'apprentissage des fonctionnalités des réseaux de neurones est un « sous-produit » piloté par les tâches, et son objectif est de minimiser les erreurs de formation. Par conséquent, nous penserions intuitivement que le réseau neuronal devrait extraire des données les fonctionnalités « pertinentes pour la tâche », tandis que les fonctionnalités restantes « non pertinentes pour la tâche » sont équivalentes au bruit des données. Ensuite, parce que les réseaux de neurones ont la caractéristique de « ne pas apprendre sauf si nécessaire » (plus précisément, le biais de simplicité), les réseaux de neurones devraient avoir tendance à ne pas les apprendre. C’est également une vision courante dans la littérature actuelle.

Cependant, dans nos récents travaux acceptés par l'ICML 2024, nous avons constaté que cette perception intuitive est en réalité

fausse

 ! Plus précisément, nous avons constaté que lorsque les réseaux neuronaux non linéaires apprennent des fonctionnalités liées à une tâche, ils ont également tendance à apprendre des fonctionnalités non pertinentespour la tâche (nous l'appelons "pollution des caractéristiques"), et cette tendance conduira à des problèmes neuronaux. réseau à généraliser aux scénarios avec décalage de distribution. Théoriquement, nous avons prouvé que la contamination des caractéristiques se produit même dans un simple réseau ReLU à deux couches et est étroitement liée à l'asymétrie de catégorie de activation des neurones dans les réseaux neuronaux. Nous avons également donné une série de preuves que la contamination des caractéristiques existe également en profondeur ; réseaux tels que ResNet et Vision Transformer, et nuira à leur généralisation. Il convient de mentionner que le mode de défaillance que nous avons découvert est complètement orthogonal à l'analyse dominante basée sur de fausses corrélations dans la littérature actuelle de généralisation hors distribution (OOD). Par conséquent, dans une perspective plus large, nos résultats démontrent l'importance du biais inductif du réseau neuronal lui-même pour la généralisation de l'OOD. Ils montrent également que bon nombre de nos études sur l'apprentissage et la généralisation des caractéristiques des réseaux neuronaux ont peut-être également besoin d'être repensées.

Ensuite, présentons le contenu spécifique de l'article :

Contexte de recherche

La capacité de généralisation dans les scénarios où la distribution des données change (c'est-à-dire la capacité de généralisation OOD) est une mesure de la capacité d'un système d'apprentissage automatique à fonctionner dans réalité L'un des indicateurs clés du déploiement dans l'environnement. Cependant, les réseaux de neurones actuels subissent souvent des pertes de performances significatives dans les scénarios de généralisation OOD. Concernant la raison pour laquelle la généralisation OOD échoue, l'affirmation la plus courante dans la littérature est que de fausses corrélations existent dans la représentation, c'est-à-dire que le modèle apprendra des caractéristiques liées à l'objectif de la tâche mais n'ont aucune relation causale. Par conséquent, lorsque la corrélation entre ces caractéristiques et les objectifs des tâches change en raison de changements de distribution, les modèles qui s'appuient sur ces caractéristiques pour la prédiction ne peuvent pas garantir les performances d'origine.

L'explication théorique ci-dessus est assez intuitive et naturelle, et est également devenue l'axe principal guidant la recherche sur les algorithmes OOD ces dernières années, c'est-à-dire qu'en concevant de meilleures fonctions objectives d'optimisation et des termes réguliers, le modèle peut apprendre de meilleures représentations sans fausses corrélations. Afin d'obtenir des performances de généralisation plus fortes. Ces dernières années, de nombreux travaux ont été réalisés dans ce sens pour tenter d’améliorer la généralisation OOD du modèle grâce à la conception d’algorithmes. Cependant, des travaux récents montrent que de nombreux algorithmes dotés de garanties théoriques intégrées ont une amélioration très limitée des performances sur les tâches de généralisation OOD basées sur des données réelles. Pourquoi cela arrive-t-il ? Nous pensons que les difficultés actuelles de la recherche sur la généralisation de l'OOD peuvent provenir de

deux limitations

de l'analyse existante :

  • La plupart des recherches existantes ne considèrent que le mode de défaillance causé par une corrélation parasite.
  • La plupart des recherches actuelles se limitent aux modèles linéaires et ne prennent pas en compte la non-linéarité des réseaux neuronaux et le biais inductif du SGD, d'où les résultats des analyses existantes ; ne sont pas nécessairement adaptés au réseau neuronal que nous utilisons réellement.

En d’autres termes, les explications actuelles et les modèles théoriques de généralisation de l’OOD peuvent ne pas refléter avec précision les scénarios réels de changement de distribution. Par conséquent, nous pensons qu’il est très nécessaire de prendre en compte le biais inductif des réseaux de neurones et du SGD pour comprendre la généralisation de l’OOD basée sur les réseaux de neurones profonds.

Expérience

Tout d'abord, nous essayons d'estimer la « limite supérieure de performance » qui peut être atteinte par l'algorithme de généralisation OOD actuel conçu sur la base d'objectifs d'apprentissage de la représentation grâce à la conception expérimentale. Sous la direction d'une fausse théorie de corrélation, les travaux existants tentent principalement de contraindre le modèle à apprendre des représentations qui peuvent être généralisées par OOD en concevant des fonctions objectives d'apprentissage de représentations auxiliaires. Afin d'étudier si l'optimisation d'un tel objectif peut réellement extraire la représentation souhaitée, nous avons conçu un scénario idéalisé :

  • Tout d'abord, pendant le processus de formation, nous avons permis au modèle de s'adapter explicitement à un modèle d'enseignant pouvant être généralisé par l'OOD. la représentation extraite est une distillation de représentation. Dans les expériences, ce modèle d'enseignant peut être un modèle pré-entraîné à grande échelle (tel que CLIP). Afin de contrôler les variables, en fonctionnement réel, nous contrôlons la structure du modèle étudiant et du modèle enseignant pour qu'elle soit exactement la même.
  • Dans la deuxième étape, nous formons des classificateurs linéaires (sondage linéaire) sur l'ensemble de formation en fonction des représentations fournies respectivement par le modèle enseignant et le modèle étudiant. ,
  • Enfin, nous avons testé les classificateurs linéaires basés sur le modèle enseignant et le modèle élève sur l'ensemble de tests identiquement distribués et l'ensemble de tests OOD, respectivement, pour mesurer la généralisation OOD des représentations extraites par ces deux modèles.

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Les résultats expérimentaux sont présentés dans l'image ci-dessus. De la figure, nous tirons deux conclusions principales :

  • Par rapport au modèle standard (bleu) qui ne correspond pas directement à la représentation du modèle enseignant pendant le processus de formation, le classificateur linéaire basé sur le modèle étudiant (orange) a une meilleure généralisabilité OOD.
  • Cependant, les performances de généralisation OOD du classificateur linéaire basé sur le modèle étudiant (orange) sont encore nettement en retard par rapport au classificateur linéaire basé sur le modèle enseignant (violet).

Nous nous demandons donc naturellement : puisque nous avons directement ajusté la représentation du modèle de l'enseignant, d'où vient l'écart de généralisation entre le modèle de l'élève et le modèle de l'enseignant ? Nous avons constaté qu'il est difficile d'expliquer directement ce phénomène expérimental avec les explications théoriques existantes :

  • Tout d'abord, cet écart ne peut pas être directement expliqué par la fausse théorie de la corrélation : puisque les représentations du modèle de l'élève et du modèle de l'enseignant (sur le ensemble de formation) sont fondamentalement les mêmes, alors le classificateur linéaire basé sur ces deux représentations devrait être affecté de la même manière par de fausses caractéristiques de corrélation pendant le processus de formation, et ne devrait pas avoir un écart aussi grand
  • Une autre explication possible est le modèle de l'enseignant (tel que comme CLIP) peut avoir « vu » de nombreux échantillons OOD au cours de son propre processus de pré-entraînement, afin de pouvoir extraire certaines fonctionnalités qui ne figurent pas dans l'ensemble d'apprentissage pour les échantillons OOD. Cependant, des recherches récentes montrent que même si tous les échantillons similaires aux échantillons de test OOD sont supprimés des données de pré-entraînement de CLIP, CLIP a toujours une forte généralisation OOD [1]. Cela montre qu’il ne suffit pas d’expliquer l’écart entre le modèle de l’enseignant et celui de l’élève simplement à partir de cette perspective.

En bref, nous pensons que l'analyse existante est insuffisante pour expliquer l'écart dans la capacité de généralisation de l'OOD que nous avons réellement observé dans nos expériences. Dans le même temps, puisque « les représentations directement adaptées qui peuvent être généralisées par OOD » ne peuvent pas garantir un modèle qui peut être généralisé par OOD, alors nous devons considérer le « processus » d'apprentissage des représentations en plus du « objectif ». de l'apprentissage des représentations. ", qui est le biais inductif provoqué par la dynamique d'apprentissage des fonctionnalités des réseaux de neurones. Bien qu'il soit très difficile d'analyser directement le processus d'apprentissage des fonctionnalités des réseaux de neurones profonds en théorie, nous avons constaté que même un réseau ReLU à deux couches montrera une tendance intéressante à l'apprentissage des fonctionnalités, c'est-à-dire une « pollution des fonctionnalités », et cette tendance est également directement lié à la généralisation OOD des réseaux de neurones.

Théorie

Dans cette section, nous prouvons l'existence du phénomène de "pollution de caractéristiques" sur un problème de classification binaire basé sur un réseau ReLU à deux couches, et analysons la source de ce phénomène. Plus précisément, nous supposons que l'entrée dans le réseau consiste en une combinaison linéaire de deux fonctionnalités : les « fonctionnalités de base » et les « fonctionnalités d'arrière-plan ». Parmi elles, la distribution des caractéristiques de base dépend de l'étiquette de catégorie (peut être visualisée comme l'objet à classer dans le problème de classification d'images), tandis que la distribution des caractéristiques d'arrière-plan n'a rien à voir avec l'étiquette (peut être visualisée comme l'objet à classer dans le problème de classification d'image). fond d’image et autres éléments du problème de classification d’images). Afin d'éliminer l'interférence d'autres facteurs, nous faisons également les hypothèses suivantes sur ces deux types de caractéristiques :

  • Les fonctionnalités d'arrière-plan ne sont pas corrélées aux étiquettes (nous éliminons donc les modes de défaillance causés par de fausses corrélations).
  • L'étiquette peut être prédite avec une précision de 100 % grâce aux fonctionnalités de base (de cette façon, nous éliminons le mode d'échec causé par des fonctionnalités insuffisantes de l'ensemble d'entraînement).
  • Les fonctionnalités de base et les fonctionnalités d'arrière-plan sont distribuées dans des sous-espaces orthogonaux (de sorte que nous excluons les modes de défaillance causés par différentes fonctionnalités difficiles à découpler).

Nous avons constaté que même dans les conditions ci-dessus, le réseau neuronal apprendra toujours des fonctionnalités d'arrière-plan qui ne sont absolument pas pertinentes pour la tâche tout en apprenant les fonctionnalités de base. En raison du couplage de ces deux caractéristiques dans l'espace de pondération du réseau, le changement de distribution dans les caractéristiques d'arrière-plan entraînera également une augmentation de l'erreur du réseau neuronal, réduisant ainsi la généralisation OOD du réseau. Par conséquent, nous appelons cette préférence d’apprentissage des caractéristiques des réseaux de neurones « pollution des caractéristiques ». Ci-dessous, nous présentons en détail les causes de la pollution des fonctionnalités. Le diagramme schématique de l'idée globale de l'analyse est le suivant :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Le point clé de notre analyse est que la pollution des caractéristiques est en fait liée au fait que les neurones des réseaux neuronaux ont souvent une activation asymétrique (activation asymétrique) pour différentes catégories. Plus précisément, nous pouvons montrer qu'après suffisamment d'itérations SGD, au moins une partie significative des neurones du réseau aura tendance à être corrélée positivement avec des échantillons d'une catégorie (nous les appelons échantillons positifs de ce neurone, et utilisons ypos représente sa catégorie), tout en conservant une corrélation négative avec l'échantillon d'une autre catégorie (on l'appelle l'échantillon négatif de ce neurone, et yneg représente sa catégorie). Cela conduira à une asymétrie de catégorie dans l'activation de ces neurones, comme le montre le théorème 4.1 :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Comment une telle asymétrie de catégorie affecte-t-elle le processus d'apprentissage des caractéristiques du réseau neuronal ? Nous remarquons d'abord que pour le k-ième neurone dans la couche cachée du réseau, son vecteur de poids wk peut être scindé après la t-ième itération :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Dans la formule ci-dessus, Score et S bg représente respectivement l'ensemble des fonctionnalités principales et des fonctionnalités d'arrière-plan, où chaque mj correspond à une fonctionnalité principale ou une fonctionnalité d'arrière-plan. À partir de cette formule, nous pouvons voir que le poids d'un neurone peut être décomposé en ses projections sur différentes caractéristiques (nous supposons ici que différents mj sont des vecteurs unitaires orthogonaux). De plus, nous pouvons prouver que la projection du gradient négatif de wk sur chaque élément d'arrière-plan mj, j appartient à Sbg satisfait :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Pour les neurones de catégorie d'activation asymétrique, selon le théorème 4.1, on constate que son gradient dépend principalement de l'échantillon positif y=ypos du neurone et n'a presque rien à voir avec l'échantillon négatif y=yneg. Cela a pour conséquence que les caractéristiques principales et les caractéristiques d'arrière-plan existant dans les échantillons positifs obtiennent en même temps des projections de gradient positif, et ce processus n'a rien à voir avec la corrélation entre les caractéristiques et les étiquettes. Comme le montre le théorème 4.2, nous prouvons qu'après suffisamment d'itérations SGD, l'accumulation de la projection de gradient ci-dessus fera que les caractéristiques apprises par le neurone contiendront à la fois des caractéristiques de base et des caractéristiques d'arrière-plan couplées :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败En raison du couplage des caractéristiques de base et des caractéristiques d'arrière-plan dans les poids des neurones, le changement de distribution négatif des caractéristiques d'arrière-plan réduira l'activation des neurones, entraînant des erreurs OOD supplémentaires. Comme le montre le théorème 4.3, nous décrivons quantitativement l'impact de la pollution de caractéristiques sur le risque de généralisation de ID et OOD :

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败En même temps, afin d'illustrer davantage la relation entre la pollution de caractéristiques provenant des fonctions d'activation non linéaires de réseaux de neurones, nous le prouvons Après avoir supprimé la non-linéarité du réseau de neurones, la pollution des caractéristiques ne se produira plus :

Comme le montre la figure ci-dessous, nous avons vérifié nos résultats théoriques par des expériences numériques. Dans le même temps, en plus du réseau ReLU à deux couches + SGD, nous avons également étendu nos conclusions à des paramètres plus généraux, notamment d'autres types de fonctions d'activation, des optimiseurs avec des tailles de pas adaptatives, etc. Les résultats sont présentés dans la figure 3 ( d) ), indiquant que la contamination des fonctionnalités est également répandue dans des contextes plus généraux.

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

Dans le même temps, nous fournissons également davantage de preuves expérimentales et de visualisation de fonctionnalités pour montrer que dans les réseaux profonds tels que ResNet et Vision Transformer que nous utilisons quotidiennement, le phénomène de pollution des fonctionnalités se produit également et peut expliquer le observations dans nos expériences L'écart de généralisation OOD a été atteint. Toute personne intéressée par cette partie peut se référer au chapitre 5 de notre article original.

Résumé et discussion

Enfin, nous énumérons quelques points de recherche qui pourraient être plus importants à l'avenir/peuvent être poursuivis en profondeur. Nous invitons également tous ceux qui souhaitent communiquer davantage avec nous :

  • Réseau plus approfondi. :Bien que nous ayons prouvé expérimentalement que les réseaux profonds présentent également des problèmes de pollution, mais jusqu'à présent, notre analyse théorique n'a porté que sur un réseau ReLU à deux couches. Nous soupçonnons que la contamination de caractéristiques pourrait être un concept plus général et que l'asymétrie d'activation des neurones pour les catégories pourrait n'être qu'une des raisons de son apparition. En analysant des réseaux plus profonds ou des structures de réseau plus complexes (comme l'introduction d'une couche de normalisation, etc.), nous pourrons peut-être découvrir davantage de causes de pollution des fonctionnalités et proposer des solutions ciblées.
  • Le rôle de la pré-formation : L'analyse théorique de cet article ne considère que le cas de l'entraînement à partir de zéro, mais les modèles que nous utilisons réellement sont souvent des modèles pré-entraînés. Il existe de nombreuses preuves expérimentales selon lesquelles la pré-formation peut aider à améliorer la généralisation OOD du modèle. Alors, l'essence de cette amélioration de la généralisation est-elle liée à l'atténuation du problème de pollution des fonctionnalités ? Comment se déroule la pré-formation ?
  • Comment résoudre le problème de pollution des fonctionnalités : Bien que notre travail ait souligné le problème de pollution des fonctionnalités, il n'a pas encore donné de solution claire. Cependant, certains de nos travaux ultérieurs ont montré que des problèmes similaires se produiront également lors du réglage fin de grands modèles, et nous avons également constaté que certaines méthodes basées sur l'ajustement du gradient peuvent effectivement atténuer ce problème, améliorant ainsi considérablement la généralisation du modèle de réglage fin. capacité. Nous publierons également le contenu spécifique de cette partie du travail à l'avenir, et tout le monde est invité à continuer d'y prêter attention.

À propos de l'auteur | L'auteur de cet article, Zhang Tianren, est doctorant au Département d'automatisation de l'Université Tsinghua. Il est titulaire d'un baccalauréat au Département d'automatisation de l'Université Tsinghua. Feng. Au cours de son doctorat, l'auteur a principalement mené des recherches théoriques et algorithmiques autour des questions d'apprentissage des représentations et de généralisation dans l'apprentissage automatique. Il a publié de nombreux articles dans les principales conférences et revues sur l'apprentissage automatique, telles que ICML, NeurIPS, ICLR, IEEE TPAMI, etc.

Affiliation de l'auteur | VIPLAB de l'Université Tsinghua

E-mail de contact | . , Bethge, M. et Brendel, W. Les performances de généralisation de CLIP proviennent-elles principalement d'une similarité élevée entre les tests de train et la Conférence internationale sur les représentations d'apprentissage, 2024.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn