Maison >Périphériques technologiques >IA >[Interprétation papier] Architecture de prédiction d'intégration conjointe d'apprentissage auto-supervisé basée sur des graphiques
1. Brève introduction
Cet article présente une méthode d'apprentissage de représentations d'images hautement sémantiques sans recourir à une augmentation de données artisanale. L'article présente l'architecture de prédiction d'intégration conjointe basée sur l'image (I-JEPA), une méthode non générative d'apprentissage auto-supervisé à partir d'images. L'idée derrière I-JEPA est simple : prédire la représentation de différents patchs cibles dans la même image à partir d'un seul patch de contexte. Le choix de conception principal guidant I-JEPA pour générer des représentations sémantiques est la stratégie de masquage, plus précisément, (a) prédire plusieurs correctifs cibles dans l'image, (b) échantillonner des correctifs cibles à une échelle suffisamment grande (15 % de l'image - 20) %), (c) l’utilisation de blocs de contexte suffisamment riches (répartis spatialement) est cruciale. Empiriquement, l'article a révélé qu'I-JEPA est hautement évolutif lorsqu'il est associé à un transformateur visuel. Par exemple, l'article forme un ViT-Huge/16 sur ImageNet en 38 heures à l'aide de 32 GPU A100 pour obtenir de solides performances en aval sur un large éventail de tâches nécessitant différents niveaux d'abstraction, de la classification linéaire au comptage d'objets et à la prédiction de profondeur.
2. Contexte de recherche
En vision par ordinateur, il existe deux méthodes courantes d'apprentissage auto-supervisé des images.
Méthodes basées sur l'invariance et méthodes de génération. En optimisant l'encodeur grâce à une approche de pré-entraînement basée sur l'invariance, des intégrations similaires peuvent être générées pour deux vues ou plus de la même image. En règle générale, les vues d'images sont construites à l'aide d'un ensemble de méthodes artisanales d'augmentation des données, telles que la mise à l'échelle aléatoire, le recadrage, le tramage des couleurs, etc. Ces méthodes de pré-formation peuvent générer des représentations de haut niveau sémantique, mais en même temps elles introduisent également de forts biais qui peuvent avoir un impact négatif sur certaines tâches en aval ou même sur des tâches de pré-formation avec différentes distributions de données.
La théorie de l'apprentissage cognitif estime ces représentations dans les systèmes biologiques L'un des mécanismes moteurs de l'apprentissage est l'adaptation d'un modèle interne pour prédire les réponses aux entrées sensorielles. Cette idée est au cœur des méthodes génératives auto-supervisées, qui suppriment ou corrompent des parties de l’entrée et apprennent à prédire ce qui est corrompu. En particulier, les méthodes de débruitage de masque apprennent les représentations en reconstruisant des patchs de masque aléatoires à partir du niveau de pixel ou de jeton de l'entrée. Par rapport aux méthodes invariantes de vue, la tâche de pré-entraînement des masques nécessite moins de connaissances préalables et est facilement généralisée au-delà des modalités d'image. Cependant, les représentations résultantes ont souvent des niveaux sémantiques inférieurs et manquent de pré-formation basée sur l'invariance dans les évaluations standard telles que les paramètres de sondage et de transfert linéaires avec une supervision limitée sur les tâches de classification sémantique. Par conséquent, un mécanisme d’adaptation plus sophistiqué (par exemple, un réglage fin de bout en bout) est nécessaire pour obtenir tous les avantages de ces méthodes.
Dans ce travail, l'article explore comment améliorer le niveau sémantique des représentations auto-supervisées sans utiliser de connaissances préalables supplémentaires sur les transformations d'images codées. À cette fin, l’article présente une architecture de prédiction d’intégration conjointe d’images (I-JEPA). La figure 3 fournit une illustration de cette approche. L'idée derrière I-JEPA est de prédire les informations manquantes dans un espace de représentation abstrait ; par exemple, étant donné un patch de contexte, prédire la représentation de différents patchs cibles dans la même image, où la représentation cible est calculée par un réseau d'encodeurs cibles appris.
Par rapport aux méthodes génératives qui prédisent dans l'espace pixel/marqueur, I-JEPA utilise des cibles de prédiction abstraites qui peuvent éliminer les détails inutiles au niveau des pixels, ce qui permet au modèle d'apprendre davantage de fonctionnalités sémantiques. Un autre choix de conception fondamental guidant I-JEPA dans la production de représentations sémantiques est la stratégie de masquage multibloc proposée. Plus précisément, l'article démontre l'importance d'utiliser un patch contextuel informatif (distribué spatialement) pour prédire plusieurs patchs cibles (d'une échelle suffisamment grande) dans une image. Contenu réécrit : par rapport aux méthodes génératives qui prédisent dans l'espace pixel/marqueur, I-JEPA utilise des cibles de prédiction abstraites, éliminant potentiellement les détails inutiles au niveau des pixels, permettant ainsi au modèle d'apprendre davantage de fonctionnalités sémantiques. Un autre choix de conception fondamental d’I-JEPA consiste à adopter une stratégie de masquage multibloc pour générer des représentations sémantiques. Plus précisément, l'article démontre l'importance d'utiliser des correctifs contextuels informatifs (distribués dans l'espace) pour prédire plusieurs correctifs cibles (à échelle suffisamment grande) dans une image
Basée sur une évaluation empirique approfondie, l'étude montre :
I-JEPA apprend de manière puissante -représentations sémantiques standard sans utiliser d'augmentations de vue fabriquées à la main (Figure 1). I-JEPA surpasse les méthodes de reconstruction de pixels telles que MAE sur la détection linéaire ImageNet-1K, ImageNet-1K semi-supervisée à 1 % et les tâches de transfert sémantique.
I-JEPA est compétitif par rapport aux méthodes de pré-entraînement invariantes de vue sur les tâches sémantiques et obtient de meilleures performances sur les tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de profondeur. En utilisant un modèle plus simple et un biais inductif moins rigide, I-JEPA est applicable à un ensemble plus large de tâches.
I-JEPA est également évolutif et efficace. La pré-formation du ViT-H/14 sur ImageNet prend environ 2 400 heures GPU, ce qui est 50 % plus rapide que le ViTB/16 pré-entraîné avec iBOT et 140 % plus rapide que le ViT-L/16 pré-entraîné avec MAE. Les prédictions dans l'espace de représentation réduisent considérablement le calcul total requis pour la pré-formation auto-supervisée.
L'apprentissage auto-supervisé est une méthode d'apprentissage par représentation dans laquelle un système apprend à capturer les relations entre ses entrées. Cet objectif peut être facilement décrit à l’aide du cadre des modèles basés sur l’énergie (EBM), où l’objectif de l’auto-supervision est d’attribuer une énergie élevée aux intrants incompatibles et une énergie faible aux intrants compatibles. De nombreuses méthodes d'apprentissage auto-supervisées génératives et non génératives existantes peuvent en effet être converties dans ce cadre ; voir Figure 2
Contenu réécrit : les architectures Joint-Embedding (Joint-Embedding Architectures) sont une nouvelle méthode basée sur la méthode de pré-entraînement dégénérative. peut être utilisé dans le cadre EBM pour effectuer une conversion forcée, voir Figure 2a. L'objectif d'apprentissage de l'architecture d'intégration conjointe est de faire en sorte que les entrées compatibles x et y génèrent des intégrations similaires, tandis que les entrées incompatibles génèrent des intégrations différentes. Dans la pré-formation basée sur des images, les paires x et y compatibles sont généralement construites en appliquant de manière aléatoire des augmentations de données artisanales aux mêmes images d'entrée. Le principal défi de JEA est l'effondrement de la représentation, où le paysage énergétique est plat (c'est-à-dire l'encodeur). produit une sortie constante quelle que soit l’entrée). Au cours des dernières années, plusieurs méthodes ont été étudiées pour empêcher l'effondrement de la représentation, telles que les pertes contrastives qui poussent explicitement les intégrations d'exemples négatifs, les pertes non contrastées qui minimisent la redondance des informations intégrées et les méthodes basées sur le clustering pour maximiser l'entropie intégrée moyenne. Il existe également des méthodes heuristiques qui utilisent une conception architecturale asymétrique entre l'encodeur x et l'encodeur y pour éviter l'effondrement. Architectures génératives. Les méthodes d'apprentissage auto-supervisées basées sur la reconstruction peuvent également être intégrées dans des cadres EBM à l'aide d'architectures génératives ; voir la figure 2b.
Les architectures génératives apprennent à reconstruire directement le signal y à partir d'un signal compatible x, en utilisant un réseau de décodeurs supplémentaire (éventuellement latent) pour la variable z. pour faciliter la reconstruction. Dans la pré-formation basée sur l'image, une approche courante en vision par ordinateur consiste à utiliser des masques pour générer des paires x,y compatibles, où x est une copie de l'image y mais avec certains correctifs masqués. La variable de conditionnement z correspond alors à un ensemble de masques (éventuellement apprenables) et de marqueurs de position qui précisent le décodeur du patch d'image à reconstruire. Tant que la capacité informationnelle de z est inférieure au signal y, ces architectures ne se concentrent pas sur l’effondrement des représentations.
Archites prédictives à intégration conjointe. Comme le montre la figure 2c, l'architecture de prédiction d'intégration conjointe est conceptuellement similaire à l'architecture générative, cependant, une différence clé est que la fonction de perte est appliquée à l'espace d'intégration plutôt qu'à l'espace d'entrée ; JEPA apprend à prédire l'intégration du signal y à partir d'un signal compatible x, en utilisant un réseau de prédiction de variables supplémentaires (éventuellement latentes) z pour faciliter la prédiction. L'I-JEPA proposé fournit une instanciation de cette architecture dans le contexte d'images utilisant des masques (voir Figure 3). Contrairement aux architectures d'intégration conjointe, JEPA ne recherche pas de représentations invariantes à un ensemble d'augmentations de données faites à la main, mais plutôt des représentations qui se prédisent mutuellement lorsque des conditions z d'informations supplémentaires sont présentes. Cependant, comme pour les architectures d’intégration conjointe, l’effondrement de la représentation est également une préoccupation pour le JEPA. L'article exploite une architecture asymétrique entre les encodeurs x et y pour éviter l'effondrement de la représentation dans I-JEPA.
3. Introduction à la méthode
L'article décrit maintenant l'architecture de prédiction d'intégration conjointe basée sur l'image (I-JEPA) proposée, comme le montre la figure 3. L'objectif global est le suivant : étant donné un patch de contexte, prédire la représentation de différents patchs cibles dans la même image. L'article utilise l'architecture Visual Transformer (ViT) comme encodeur de contexte, encodeur cible et prédicteur. Un ViT se compose d'une pile de couches Transformer, dont chacune consiste en une opération d'auto-attention et un MLP entièrement connecté. L'architecture encodeur/prédicteur de l'article rappelle l'approche de l'encodeur automatique de masque génératif (MAE). Cependant, une différence essentielle réside dans le fait que la méthode I-JEPA est non générative et que les prédictions sont faites dans l’espace de représentation.
Classification des images
Pour démontrer qu'I-JEPA apprend des représentations de haut niveau sans s'appuyer sur une augmentation de données artisanale, l'article rapporte les résultats de diverses tâches de classification d'images utilisant des protocoles de détection linéaire et de réglage partiel. Dans cette section, l'article considère les modèles auto-supervisés pré-entraînés sur l'ensemble de données ImageNet-1K. Voir l'Annexe A pour les détails de mise en œuvre de la pré-formation et de l'évaluation. Tous les modèles I-JEPA sont formés à la résolution 224 × 224, sauf indication contraire explicite.
ImageNet-1K. Le tableau 1 montre les performances sur le benchmark d'évaluation linéaire commun ImageNet-1K. Après une pré-formation auto-supervisée, les poids du modèle sont gelés et un classificateur linéaire est formé par-dessus à l'aide de l'ensemble de formation complet ImageNet-1K. Comparé aux méthodes populaires d'encodeurs automatiques masqués (MAE) et de data2vec, qui ne reposent pas non plus sur une augmentation approfondie des données artisanales avant la formation, l'article constate que I-JEPA améliore considérablement les performances de détection linéaire tout en utilisant moins de calculs. De plus, l’I-JEPA bénéficie d’une grande échelle. ViT-H/16 formé à la résolution 448 correspond aux performances des méthodes invariantes de vue telles que iBOT sans nécessiter une augmentation manuelle supplémentaire des données.
Faible taille d'échantillon ImageNet-1K. Le tableau 2 montre les performances sur le benchmark 1 % ImageNet. Ces méthodes utilisent des modèles pré-entraînés pour la classification ImageNet, en utilisant seulement 1 % des étiquettes ImageNet, avec environ 12 ou 13 images par catégorie. Le modèle est ajusté via un réglage fin ou un sondage linéaire, en fonction de ce qui fonctionne le mieux pour chaque méthode. Lors de l'utilisation d'une architecture d'encodeur similaire, I-JEPA surpasse le MAE et nécessite moins d'époques de pré-formation. I-JEPA utilisant l'architecture ViTH/14 a des performances comparables à celles du ViT-L/16 pré-entraîné à l'aide de données 2vec, mais la charge de calcul est nettement inférieure. En augmentant la résolution d'entrée de l'image, I-JEPA fonctionne mieux que les méthodes précédentes, y compris les méthodes d'intégration conjointe et l'exploitation de méthodes d'augmentation de données artisanales supplémentaires avant la formation, telles que MSN, DINO et iBOT
Apprentissage par transfert. Le tableau 3 montre les performances d'utilisation. de sondes linéaires pour diverses tâches de classification d'images en aval. I-JEPA surpasse considérablement les méthodes précédentes qui n'utilisent pas d'augmentation (MAE et Data2vec) et réduit l'écart avec les meilleures méthodes qui exploitent l'invariant du point de vue artisanal avant la formation, dépassant même les méthodes populaires sur CIFAR100 et Place205 DINO.
5. Tâches de prédiction locales
I-JEPA apprend la représentation sémantique des images et améliore considérablement les performances de classification des images en aval des méthodes précédentes, telles que MAE et data2vec. De plus, I-JEPA bénéficie de l'échelle et peut combler l'écart et même au-delà, en tirant parti d'augmentations de données artisanales supplémentaires basées sur des méthodes basées sur l'invariance de vue. Dans cette section, nous constatons qu'I-JEPA peut également apprendre les caractéristiques des images locales et surpasser les méthodes basées sur l'invariance de vue dans les tâches de prédiction de bas niveau et intensives telles que le comptage d'objets et la prédiction de profondeur.
Le tableau 4 montre les performances sur diverses tâches de bas niveau utilisant le sondage linéaire. En particulier, après le pré-entraînement, les poids du modèle sont gelés et un modèle linéaire est entraîné par-dessus pour le comptage d'objets et la prédiction de profondeur sur l'ensemble de données Clevr. Par rapport aux méthodes invariantes de vue telles que DINO et iBOT, la méthode I-JEPA capture efficacement les caractéristiques de l'image de bas niveau avant l'entraînement et surpasse celles-ci en matière de comptage d'objets (Clevr/Count) et (en grande partie) de prédiction de profondeur (Clevr/Dist). . 6. Évolutivité
Le contenu réécrit est le suivant : Sur la base d'une comparaison avec les méthodes précédentes, I-JEPA est hautement évolutif en termes d'efficacité du modèle. La figure 5 montre les résultats semi-supervisés de l'évaluation GPU-heure sur 1% d'ImageNet-1K. I-JEPA nécessite moins de calculs que les méthodes précédentes et atteint de solides performances sans recourir à une augmentation manuelle des données. Par rapport aux méthodes basées sur la reconstruction telles que MAE, qui utilise les pixels directement comme cibles, etc., I-JEPA introduit une surcharge supplémentaire en calculant les cibles dans l'espace de représentation (le temps par itération est environ 7 % plus lent)
Mise à l'échelle de la taille des données . Le document révèle également que l'I-JEPA bénéficie d'une pré-formation sur un ensemble de données plus vaste. Le tableau 5 montre les performances d'apprentissage par transfert sur les tâches sémantiques et les tâches de bas niveau lors de l'augmentation de la taille de l'ensemble de données de pré-formation (IN1K vs IN22K). Les performances d'apprentissage par transfert sur ces tâches conceptuellement distinctes s'améliorent lorsqu'elles sont pré-formées sur des ensembles de données plus grands et plus diversifiés. Mise à l'échelle de la taille du modèle. Le tableau 5 montre également que I-JEPA bénéficie d'une taille de modèle plus grande lorsqu'il est pré-entraîné sur IN22K. Par rapport au modèle ViT-H/14, la pré-formation sur ViT-G/16 améliore considérablement les performances en aval sur les tâches de classification d'images telles que Place205 et INat18. Le modèle ViTG/16 n'améliore pas les performances sur les tâches en aval de bas niveau. ViT-G/16 utilise une taille de patch d'entrée plus grande, ce qui peut nuire aux tâches de prédiction locales.
7. Les visualisations du prédicteur peuvent être réécrites
La fonction du prédicteur dans I-JEPA est de prendre la sortie de l'encodeur de contexte et de la conditionner sur le jeton du masque de position, et le jeton du masque de prédiction est spécifié. le bloc cible à la position. Une question est de savoir si les prédicteurs conditionnés par les jetons de masque de position apprennent à capturer correctement l'incertitude de position dans la cible. Pour étudier cette question qualitativement, nous visualisons la sortie du prédicteur. Après la pré-formation, l'article gèle les poids de l'encodeur de contexte et du prédicteur, et entraîne un décodeur selon le cadre RCDM pour mapper le pool moyen de sortie du prédicteur dans l'espace des pixels. La figure 6 montre la sortie du décodeur pour diverses graines aléatoires. Les caractéristiques communes à tous les échantillons représentent les informations contenues dans la représentation moyenne des prédicteurs regroupés. Le prédicteur I-JEPA capture correctement l'incertitude de position et produit des parties d'objets de haut niveau avec des poses correctes (par exemple, le dos d'un oiseau et le toit d'une voiture). Différentes masses dans différents échantillons représentent des informations non contenues dans la représentation. Dans ce cas, le prédicteur I-JEPA ignore les détails précis de bas niveau et les informations de base.
8. L'importance des ablations
Prédire dans l'espace de représentation. Le tableau 7 compare les performances à faible tir lors du calcul d'ImageNet-1K à 1 % dans l'espace de pixels et l'espace de représentation. L'article suppose qu'un élément clé de l'I-JEPA est que la perte est entièrement calculée dans l'espace de représentation, permettant à l'encodeur cible de produire des cibles de prédiction abstraites qui éliminent les détails non pertinents au niveau des pixels. Il ressort clairement du tableau 7 que la prédiction dans l'espace des pixels entraîne une dégradation significative des performances de détection linéaire.
Contenu réécrit : La stratégie de masquage a été modifiée dans le tableau 8. Cette étude réduit le nombre de blocs cibles dans la stratégie de masque multi-blocs proposée dans le processus de pré-formation I-JEPA et ajuste l'échelle du contexte et des blocs cibles, comme le montre la figure 4. Nous avons formé I-JEPA pendant 300 époques en utilisant divers paramètres multiblocs et effectué des comparaisons de performances sur le benchmark 1 % ImageNet-1K à l'aide de sondes linéaires. Pour résumer, nous avons constaté qu'il est très important de prédire plusieurs correctifs cibles (sémantiques) relativement grands, combinés à des correctifs contextuels informatifs (distribués spatialement)
Tableau 6 en comparaison avec d'autres stratégies de masquage. Une ablation similaire a également été réalisée. L'article se compare à une stratégie de masquage rastérisé, dans laquelle l'image est segmentée en quatre grands quadrants et l'objectif est d'utiliser un quadrant comme contexte pour prédire les trois autres quadrants. L'article compare également les stratégies traditionnelles de masquage par blocs et aléatoires couramment utilisées pour les méthodes basées sur la reconstruction. Dans le masquage de bloc, la cible est un patch d'image unique et le contexte est le complément d'image. Dans le masquage aléatoire, la cible est un ensemble aléatoire (éventuellement discontinu) de patchs d'image, et le contexte est le complément de l'image. Notez que dans toutes les stratégies de masquage considérées, il n'y a pas de chevauchement entre le contexte et les blocs cibles. La stratégie de masquage multibloc proposée est la clé permettant à I-JEPA d'apprendre la représentation sémantique. Même le passage aux masques de bloc traditionnels réduit les performances d'ImageNet de plus de 24 %.
9. Conclusion Paper
a proposé une méthode appelée I-JEPA pour apprendre la représentation sémantique des images. La méthode ne repose pas sur une augmentation manuelle des données. Des études montrent qu'en effectuant des prédictions dans l'espace de représentation, I-JEPA converge plus rapidement que les méthodes de reconstruction de pixels et est capable d'apprendre des représentations de haut niveau sémantique. Par rapport aux méthodes basées sur l'invariance de vue, I-JEPA met l'accent sur la voie de l'apprentissage des représentations générales en utilisant des architectures d'intégration conjointes sans s'appuyer sur des améliorations de vue artisanales
Annexe Voir le texte original, lien original : https://arxiv.org /abs /2301.08243
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!