Maison  >  Article  >  Périphériques technologiques  >  ConvNeXt V2 est là, utilisant uniquement l'architecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

ConvNeXt V2 est là, utilisant uniquement l'architecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

WBOY
WBOYavant
2023-04-11 23:19:011306parcourir

Après des décennies de recherche fondamentale, le domaine de la reconnaissance visuelle a inauguré une nouvelle ère d'apprentissage des représentations visuelles à grande échelle. Les modèles de vision pré-entraînés à grande échelle sont devenus un outil essentiel pour l’apprentissage des fonctionnalités et les applications de vision. Les performances d'un système d'apprentissage de représentation visuelle sont grandement affectées par trois facteurs principaux : l'architecture du réseau neuronal du modèle, la méthode utilisée pour entraîner le réseau et les données d'entraînement. Les améliorations de chaque facteur contribuent à l’amélioration des performances globales du modèle.

L'innovation dans la conception d'architecture de réseaux neuronaux a toujours joué un rôle important dans le domaine de l'apprentissage des représentations. L'architecture de réseau neuronal convolutif (ConvNet) a eu un impact significatif sur la recherche en vision par ordinateur, permettant l'utilisation de méthodes universelles d'apprentissage de fonctionnalités dans diverses tâches de reconnaissance visuelle sans recourir à l'ingénierie de fonctionnalités mise en œuvre manuellement. Ces dernières années, l’architecture Transformer, initialement développée pour le traitement du langage naturel, est également devenue largement utilisée dans d’autres domaines de l’apprentissage profond en raison de son adéquation avec des modèles et des ensembles de données de différentes tailles.

L'émergence de l'architecture ConvNeXt modernise le ConvNet traditionnel, prouvant que les modèles convolutionnels purs peuvent également s'adapter aux changements de taille du modèle et de l'ensemble de données. Cependant, la manière la plus courante d’explorer l’espace de conception des architectures de réseaux neuronaux reste de comparer les performances de l’apprentissage supervisé sur ImageNet.

Une autre idée est de déplacer l'accent de l'apprentissage par représentation visuelle de l'apprentissage supervisé étiqueté vers la pré-formation auto-supervisée. Les algorithmes auto-supervisés ont introduit la modélisation du langage masqué dans le champ de vision et sont rapidement devenus une méthode populaire pour l’apprentissage des représentations visuelles. Cependant, l’apprentissage auto-supervisé utilise généralement une architecture conçue pour l’apprentissage supervisé et suppose que l’architecture est fixe. Par exemple, Masked Autoencoder (MAE) utilise une architecture de transformateur visuel.

Une solution consiste à combiner ces architectures avec des cadres d'apprentissage auto-supervisés, mais cela se heurtera à des problèmes spécifiques. Par exemple, le problème suivant se pose lors de la combinaison de ConvNeXt avec MAE : MAE a une conception d'encodeur-décodeur spécifique optimisée pour les capacités de traitement de séquence du transformateur, ce qui permet à l'encodeur à forte intensité de calcul de se concentrer sur les patchs visibles, réduisant ainsi la pré-formation. frais. Mais cette conception peut être incompatible avec le ConvNet standard, qui utilise des fenêtres coulissantes denses. De plus, sans considérer la relation entre l’architecture et les objectifs de formation, il n’est pas clair si des performances optimales peuvent être atteintes. En fait, les recherches existantes montrent qu'il est difficile de former ConvNet avec un apprentissage auto-supervisé basé sur des masques, et des preuves expérimentales montrent que Transformer et ConvNet peuvent diverger dans l'apprentissage des fonctionnalités, ce qui affectera la qualité de la représentation finale.

À cette fin, des chercheurs de KAIST, Meta et de l'Université de New York (dont Liu Zhuang, premier auteur de ConvNeXt, et Xie Saining, premier auteur de ResNeXt) ont proposé de concevoir conjointement l'architecture du réseau et l'auto-encodeur masqué sous le même Le but de ceci est de permettre à l'apprentissage auto-supervisé basé sur Mask d'être appliqué aux modèles ConvNeXt et d'obtenir des résultats comparables à ceux des transformateurs.

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Adresse papier : https://arxiv.org/pdf/2301.00808v1.pdf

Lors de la conception d'un auto-encodeur masqué, cette étude traite l'entrée avec un masque comme un ensemble de patchs clairsemés , et une convolution clairsemée est utilisée pour traiter les parties visibles. L'idée a été inspirée par l'utilisation de convolutions clairsemées lors du traitement de nuages ​​de points 3D à grande échelle. Plus précisément, cette étude propose d'implémenter ConvNeXt avec des convolutions clairsemées, puis, lors du réglage fin, les poids peuvent être reconvertis en couches de réseau denses standard sans traitement spécial. Pour améliorer encore l'efficacité de la pré-formation, cette étude remplace le décodeur de transformateur par un seul ConvNeXt, rendant l'ensemble de la conception entièrement convolutionnelle. Les chercheurs ont observé qu'après l'ajout de ces changements : les fonctionnalités apprises étaient utiles et amélioraient les résultats de base, mais les performances affinées étaient toujours inférieures à celles du modèle basé sur un transformateur.

Ensuite, l'étude a analysé l'espace de fonctionnalités de ConvNeXt avec différentes configurations de formation. Lors de la formation de ConvNeXt directement sur des entrées masquées, les chercheurs ont découvert des problèmes potentiels d'effondrement des fonctionnalités dans la couche MLP. Afin de résoudre ce problème, cette étude propose d'ajouter une couche de normalisation de réponse globale (couche de normalisation de réponse globale) pour améliorer la compétition de fonctionnalités entre les canaux. Cette amélioration est plus efficace lorsque le modèle est pré-entraîné à l'aide d'un encodeur automatique masqué, ce qui suggère que la réutilisation de conceptions d'architecture fixe issues de l'apprentissage supervisé n'est peut-être pas la meilleure approche.

Sur la base des améliorations ci-dessus, cette étude propose ConvNeXt V2, qui montre de meilleures performances lorsqu'il est combiné avec des auto-encodeurs masqués. Dans le même temps, les chercheurs ont découvert que ConvNeXt V2 présentait des améliorations significatives en termes de performances par rapport à ConvNet pur sur diverses tâches en aval, notamment les tâches de classification sur ImageNet, la détection de cibles sur COCO et la segmentation sémantique sur ADE20K. La méthode proposée dans cette étude est conceptuellement simple et est basé sur un mode de fonctionnement à convolution complète. Le signal d'apprentissage est généré en masquant aléatoirement l'entrée visuelle d'origine avec un rapport de masque élevé, puis en laissant le modèle prédire les parties manquantes en fonction du contexte restant. Le cadre global est présenté dans la figure ci-dessous. Le framework

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer se compose d'un encodeur ConvNeXt basé sur une convolution clairsemée et d'un décodeur ConvNeXt léger, où la structure de l'auto-encodeur est asymétrique. L'encodeur traite uniquement les pixels visibles, tandis que le décodeur utilise des pixels codés et des jetons de masque pour reconstruire l'image. Dans le même temps, la perte est calculée uniquement dans la zone masquée.


Normalisation de la réponse globaleConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Il existe de nombreux mécanismes dans le cerveau qui favorisent la diversité neuronale. Par exemple, l’inhibition latérale peut contribuer à améliorer la réponse des neurones activés, en augmentant le contraste et la sélectivité des neurones individuels aux stimuli tout en augmentant la diversité des réponses de populations neuronales entières. En apprentissage profond, cette forme d’inhibition latérale peut être obtenue grâce à la normalisation de la réponse. Cette étude introduit une nouvelle couche de normalisation de réponse appelée normalisation de réponse globale (GRN), qui vise à augmenter le contraste et la sélectivité entre les canaux. L'unité GRN comprend trois étapes : 1) l'agrégation globale des fonctionnalités, 2) la normalisation des fonctionnalités et 3) l'étalonnage des fonctionnalités. Comme le montre la figure ci-dessous, les couches GRN peuvent être fusionnées dans le bloc ConvNeXt d'origine.

Les chercheurs ont découvert, sur la base d'expériences, que lors de l'application de GRN, LayerScale n'est pas nécessaire et peut être supprimé. En tirant parti de cette nouvelle conception de bloc, l'étude a créé une variété de modèles avec des efficacités et des capacités variables, appelés famille de modèles ConvNeXt V2, allant du léger (Atto) au plus gourmand en calcul (Huge).

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de TransformerPour évaluer le rôle de GRN, cette étude a utilisé le framework FCMAE pour pré-entraîner ConvNeXt V2. À partir de l'affichage visuel de la figure 3 ci-dessous et de l'analyse de la distance cosinus de la figure 4, on peut observer que ConvNeXt V2 atténue efficacement le problème d'effondrement des fonctionnalités. Les valeurs de distance cosinusoïdale sont constamment élevées, ce qui indique que la diversité des caractéristiques peut être maintenue pendant le transfert des couches réseau. Ceci est similaire au modèle ViT pré-entraîné à l'aide de MAE. Cela montre que le comportement d'apprentissage de ConvNeXt V2 est similaire à celui de ViT dans un cadre de pré-formation d'image de masque similaire.

L'étude a en outre évalué les performances de réglage fin et les résultats sont présentés dans le tableau ci-dessous.

Lorsqu'il est équipé de GRN, le modèle pré-entraîné FCMAE peut largement surpasser le modèle supervisé formé sur 300 époques. GRN améliore la qualité de la représentation en améliorant la diversité des fonctionnalités, ce qui est crucial pour la pré-formation basée sur le masque et est absent dans le modèle ConvNeXt V1. Il convient de noter que cette amélioration est obtenue sans ajouter de paramètres supplémentaires et sans augmenter les FLOPS.

Enfin, l'étude a également examiné l'importance du GRN dans la pré-formation et la mise au point. Comme le montre le tableau 2 (f) ci-dessous, les performances diminuent considérablement si le GRN est supprimé du réglage fin ou si le GRN nouvellement initialisé est ajouté pendant le réglage fin, ce qui indique que le GRN est important à la fois dans la pré-formation et dans le réglage fin.

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur les détails de la recherche.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer