ConvNeXt V2 est là, utilisant uniquement l'architecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer-IA-php.cn

ConvNeXt V2 est là, utilisant uniquement l'architecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:19 PM

模型

Après des décennies de recherche fondamentale, le domaine de la reconnaissance visuelle a inauguré une nouvelle ère d'apprentissage des représentations visuelles à grande échelle. Les modèles de vision pré-entraînés à grande échelle sont devenus un outil essentiel pour l’apprentissage des fonctionnalités et les applications de vision. Les performances d'un système d'apprentissage de représentation visuelle sont grandement affectées par trois facteurs principaux : l'architecture du réseau neuronal du modèle, la méthode utilisée pour entraîner le réseau et les données d'entraînement. Les améliorations de chaque facteur contribuent à l’amélioration des performances globales du modèle.

L'innovation dans la conception d'architecture de réseaux neuronaux a toujours joué un rôle important dans le domaine de l'apprentissage des représentations. L'architecture de réseau neuronal convolutif (ConvNet) a eu un impact significatif sur la recherche en vision par ordinateur, permettant l'utilisation de méthodes universelles d'apprentissage de fonctionnalités dans diverses tâches de reconnaissance visuelle sans recourir à l'ingénierie de fonctionnalités mise en œuvre manuellement. Ces dernières années, l’architecture Transformer, initialement développée pour le traitement du langage naturel, est également devenue largement utilisée dans d’autres domaines de l’apprentissage profond en raison de son adéquation avec des modèles et des ensembles de données de différentes tailles.

L'émergence de l'architecture ConvNeXt modernise le ConvNet traditionnel, prouvant que les modèles convolutionnels purs peuvent également s'adapter aux changements de taille du modèle et de l'ensemble de données. Cependant, la manière la plus courante d’explorer l’espace de conception des architectures de réseaux neuronaux reste de comparer les performances de l’apprentissage supervisé sur ImageNet.

Une autre idée est de déplacer l'accent de l'apprentissage par représentation visuelle de l'apprentissage supervisé étiqueté vers la pré-formation auto-supervisée. Les algorithmes auto-supervisés ont introduit la modélisation du langage masqué dans le champ de vision et sont rapidement devenus une méthode populaire pour l’apprentissage des représentations visuelles. Cependant, l’apprentissage auto-supervisé utilise généralement une architecture conçue pour l’apprentissage supervisé et suppose que l’architecture est fixe. Par exemple, Masked Autoencoder (MAE) utilise une architecture de transformateur visuel.

Une solution consiste à combiner ces architectures avec des cadres d'apprentissage auto-supervisés, mais cela se heurtera à des problèmes spécifiques. Par exemple, le problème suivant se pose lors de la combinaison de ConvNeXt avec MAE : MAE a une conception d'encodeur-décodeur spécifique optimisée pour les capacités de traitement de séquence du transformateur, ce qui permet à l'encodeur à forte intensité de calcul de se concentrer sur les patchs visibles, réduisant ainsi la pré-formation. frais. Mais cette conception peut être incompatible avec le ConvNet standard, qui utilise des fenêtres coulissantes denses. De plus, sans considérer la relation entre l’architecture et les objectifs de formation, il n’est pas clair si des performances optimales peuvent être atteintes. En fait, les recherches existantes montrent qu'il est difficile de former ConvNet avec un apprentissage auto-supervisé basé sur des masques, et des preuves expérimentales montrent que Transformer et ConvNet peuvent diverger dans l'apprentissage des fonctionnalités, ce qui affectera la qualité de la représentation finale.

À cette fin, des chercheurs de KAIST, Meta et de l'Université de New York (dont Liu Zhuang, premier auteur de ConvNeXt, et Xie Saining, premier auteur de ResNeXt) ont proposé de concevoir conjointement l'architecture du réseau et l'auto-encodeur masqué sous le même Le but de ceci est de permettre à l'apprentissage auto-supervisé basé sur Mask d'être appliqué aux modèles ConvNeXt et d'obtenir des résultats comparables à ceux des transformateurs.

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Adresse papier : https://arxiv.org/pdf/2301.00808v1.pdf

Lors de la conception d'un auto-encodeur masqué, cette étude traite l'entrée avec un masque comme un ensemble de patchs clairsemés , et une convolution clairsemée est utilisée pour traiter les parties visibles. L'idée a été inspirée par l'utilisation de convolutions clairsemées lors du traitement de nuages de points 3D à grande échelle. Plus précisément, cette étude propose d'implémenter ConvNeXt avec des convolutions clairsemées, puis, lors du réglage fin, les poids peuvent être reconvertis en couches de réseau denses standard sans traitement spécial. Pour améliorer encore l'efficacité de la pré-formation, cette étude remplace le décodeur de transformateur par un seul ConvNeXt, rendant l'ensemble de la conception entièrement convolutionnelle. Les chercheurs ont observé qu'après l'ajout de ces changements : les fonctionnalités apprises étaient utiles et amélioraient les résultats de base, mais les performances affinées étaient toujours inférieures à celles du modèle basé sur un transformateur.

Ensuite, l'étude a analysé l'espace de fonctionnalités de ConvNeXt avec différentes configurations de formation. Lors de la formation de ConvNeXt directement sur des entrées masquées, les chercheurs ont découvert des problèmes potentiels d'effondrement des fonctionnalités dans la couche MLP. Afin de résoudre ce problème, cette étude propose d'ajouter une couche de normalisation de réponse globale (couche de normalisation de réponse globale) pour améliorer la compétition de fonctionnalités entre les canaux. Cette amélioration est plus efficace lorsque le modèle est pré-entraîné à l'aide d'un encodeur automatique masqué, ce qui suggère que la réutilisation de conceptions d'architecture fixe issues de l'apprentissage supervisé n'est peut-être pas la meilleure approche.

Sur la base des améliorations ci-dessus, cette étude propose ConvNeXt V2, qui montre de meilleures performances lorsqu'il est combiné avec des auto-encodeurs masqués. Dans le même temps, les chercheurs ont découvert que ConvNeXt V2 présentait des améliorations significatives en termes de performances par rapport à ConvNet pur sur diverses tâches en aval, notamment les tâches de classification sur ImageNet, la détection de cibles sur COCO et la segmentation sémantique sur ADE20K. La méthode proposée dans cette étude est conceptuellement simple et est basé sur un mode de fonctionnement à convolution complète. Le signal d'apprentissage est généré en masquant aléatoirement l'entrée visuelle d'origine avec un rapport de masque élevé, puis en laissant le modèle prédire les parties manquantes en fonction du contexte restant. Le cadre global est présenté dans la figure ci-dessous. Le framework

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer se compose d'un encodeur ConvNeXt basé sur une convolution clairsemée et d'un décodeur ConvNeXt léger, où la structure de l'auto-encodeur est asymétrique. L'encodeur traite uniquement les pixels visibles, tandis que le décodeur utilise des pixels codés et des jetons de masque pour reconstruire l'image. Dans le même temps, la perte est calculée uniquement dans la zone masquée.

Normalisation de la réponse globale ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Il existe de nombreux mécanismes dans le cerveau qui favorisent la diversité neuronale. Par exemple, l’inhibition latérale peut contribuer à améliorer la réponse des neurones activés, en augmentant le contraste et la sélectivité des neurones individuels aux stimuli tout en augmentant la diversité des réponses de populations neuronales entières. En apprentissage profond, cette forme d’inhibition latérale peut être obtenue grâce à la normalisation de la réponse. Cette étude introduit une nouvelle couche de normalisation de réponse appelée normalisation de réponse globale (GRN), qui vise à augmenter le contraste et la sélectivité entre les canaux. L'unité GRN comprend trois étapes : 1) l'agrégation globale des fonctionnalités, 2) la normalisation des fonctionnalités et 3) l'étalonnage des fonctionnalités. Comme le montre la figure ci-dessous, les couches GRN peuvent être fusionnées dans le bloc ConvNeXt d'origine.

Les chercheurs ont découvert, sur la base d'expériences, que lors de l'application de GRN, LayerScale n'est pas nécessaire et peut être supprimé. En tirant parti de cette nouvelle conception de bloc, l'étude a créé une variété de modèles avec des efficacités et des capacités variables, appelés famille de modèles ConvNeXt V2, allant du léger (Atto) au plus gourmand en calcul (Huge).

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer Pour évaluer le rôle de GRN, cette étude a utilisé le framework FCMAE pour pré-entraîner ConvNeXt V2. À partir de l'affichage visuel de la figure 3 ci-dessous et de l'analyse de la distance cosinus de la figure 4, on peut observer que ConvNeXt V2 atténue efficacement le problème d'effondrement des fonctionnalités. Les valeurs de distance cosinusoïdale sont constamment élevées, ce qui indique que la diversité des caractéristiques peut être maintenue pendant le transfert des couches réseau. Ceci est similaire au modèle ViT pré-entraîné à l'aide de MAE. Cela montre que le comportement d'apprentissage de ConvNeXt V2 est similaire à celui de ViT dans un cadre de pré-formation d'image de masque similaire.

L'étude a en outre évalué les performances de réglage fin et les résultats sont présentés dans le tableau ci-dessous.

Lorsqu'il est équipé de GRN, le modèle pré-entraîné FCMAE peut largement surpasser le modèle supervisé formé sur 300 époques. GRN améliore la qualité de la représentation en améliorant la diversité des fonctionnalités, ce qui est crucial pour la pré-formation basée sur le masque et est absent dans le modèle ConvNeXt V1. Il convient de noter que cette amélioration est obtenue sans ajouter de paramètres supplémentaires et sans augmenter les FLOPS.

Enfin, l'étude a également examiné l'importance du GRN dans la pré-formation et la mise au point. Comme le montre le tableau 2 (f) ci-dessous, les performances diminuent considérablement si le GRN est supprimé du réglage fin ou si le GRN nouvellement initialisé est ajouté pendant le réglage fin, ce qui indique que le GRN est important à la fois dans la pré-formation et dans le réglage fin.

ConvNeXt V2 est là, utilisant uniquement larchitecture de convolution la plus simple, les performances ne sont pas inférieures à celles de Transformer

Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur les détails de la recherche.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Gemma Scope: le microscope de Google pour regarder dans le processus de pensée de l'IAApr 17, 2025 am 11:55 AM

Explorer le fonctionnement interne des modèles de langue avec Gemma Scope Comprendre les complexités des modèles de langue IA est un défi important. La sortie de Google de Gemma Scope, une boîte à outils complète, offre aux chercheurs un moyen puissant de plonger

Qui est un analyste de Business Intelligence et comment en devenir un?Apr 17, 2025 am 11:44 AM

Déverrouiller le succès de l'entreprise: un guide pour devenir un analyste de Business Intelligence Imaginez transformer les données brutes en informations exploitables qui stimulent la croissance organisationnelle. C'est le pouvoir d'un analyste de Business Intelligence (BI) - un rôle crucial dans GU

Comment ajouter une colonne dans SQL? - Analytique VidhyaApr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Analyste d'entreprise vs analyste de donnéesApr 17, 2025 am 11:38 AM

Introduction Imaginez un bureau animé où deux professionnels collaborent sur un projet critique. L'analyste commercial se concentre sur les objectifs de l'entreprise, l'identification des domaines d'amélioration et la garantie d'alignement stratégique sur les tendances du marché. Simulé

Que sont le comte et le coude à Excel? - Analytique VidhyaApr 17, 2025 am 11:34 AM

Excel Counting and Analysis: Explication détaillée du nombre et des fonctions de compte Le comptage et l'analyse des données précises sont essentiels dans Excel, en particulier lorsque vous travaillez avec de grands ensembles de données. Excel fournit une variété de fonctions pour y parvenir, les fonctions Count et Count sont des outils clés pour compter le nombre de cellules dans différentes conditions. Bien que les deux fonctions soient utilisées pour compter les cellules, leurs cibles de conception sont ciblées sur différents types de données. Faisons des détails spécifiques du comptage et des fonctions de coude, mettons en évidence leurs caractéristiques et différences uniques et apprenez à les appliquer dans l'analyse des données. Aperçu des points clés Comprendre le nombre et le cou

Chrome est là avec l'IA: vivre quelque chose de nouveau tous les jours !!Apr 17, 2025 am 11:29 AM

La révolution de l'IA de Google Chrome: une expérience de navigation personnalisée et efficace L'intelligence artificielle (IA) transforme rapidement notre vie quotidienne, et Google Chrome mène la charge dans l'arène de navigation Web. Cet article explore les exciti

Côté humain de l'AI: le bien-être et le quadruple de basApr 17, 2025 am 11:28 AM

Réinventuation d'impact: le quadruple bas Pendant trop longtemps, la conversation a été dominée par une vision étroite de l’impact de l’IA, principalement axée sur le résultat du profit. Cependant, une approche plus holistique reconnaît l'interconnexion de BU

5 cas d'utilisation de l'informatique quantique qui change la donne que vous devriez connaîtreApr 17, 2025 am 11:24 AM

Les choses évoluent régulièrement vers ce point. L'investissement affluant dans les prestataires de services quantiques et les startups montre que l'industrie comprend son importance. Et un nombre croissant de cas d'utilisation réels émergent pour démontrer sa valeur

See all articles