Maison >Périphériques technologiques >IA >Le moment Swin du modèle visuel Mamba, l'Académie chinoise des sciences, Huawei et d'autres ont lancé VMamba

Le moment Swin du modèle visuel Mamba, l'Académie chinoise des sciences, Huawei et d'autres ont lancé VMamba

WBOY
WBOYavant
2024-01-22 15:21:11990parcourir

La position de Transformer dans le domaine des grands modèles est inébranlable. Cependant, à mesure que l'échelle du modèle s'étend et que la longueur de la séquence augmente, les limites de l'architecture Transformer traditionnelle commencent à devenir apparentes. Heureusement, l’avènement de Mamba change rapidement cette situation. Ses performances exceptionnelles ont immédiatement fait sensation dans la communauté IA. L’émergence de Mamba a apporté d’énormes avancées dans la formation de modèles et le traitement de séquences à grande échelle. Ses avantages se répandent rapidement dans la communauté de l’IA, apportant de grands espoirs pour les recherches et applications futures.

Jeudi dernier, l'introduction de Vision Mamba (Vim) a démontré son grand potentiel pour devenir l'épine dorsale de la prochaine génération du modèle visuel de base. Un jour plus tard, des chercheurs de l'Académie chinoise des sciences, de Huawei et du laboratoire Pengcheng ont proposé VMamba : Un modèle visuel de Mamba avec un champ récepteur global et une complexité linéaire. Cette œuvre marque le moment Swin du modèle visuel Mamba.

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba


  • Titre de l'article : VMamba : Visual State Space Model
  • Adresse de l'article : https://arxiv.org/abs/2401.10166
  • Adresse du code : https://github .com/MzeroMiko/VMamba

CNN et Visual Transformer (ViT) sont actuellement les deux modèles visuels de base les plus courants. Bien que CNN ait une complexité linéaire, ViT possède des capacités d’ajustement de données plus puissantes, mais au prix d’une complexité informatique plus élevée. Les chercheurs pensent que ViT a une forte capacité d’ajustement car il possède un champ récepteur global et des poids dynamiques. Inspirés par le modèle Mamba, les chercheurs ont conçu un modèle qui possède à la fois d'excellentes propriétés en complexité linéaire, à savoir le Visual State Space Model (VMamba). Des expériences approfondies ont prouvé que VMamba fonctionne bien dans diverses tâches visuelles. Comme le montre la figure ci-dessous, VMamba-S atteint une précision de 83,5 % sur ImageNet-1K, soit 3,2 % de plus que Vim-S et 0,5 % de plus que Swin-S.

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

Introduction à la méthode

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

La clé du succès de VMamba réside dans l'adoption du modèle S6, conçu à l'origine pour résoudre des tâches de traitement du langage naturel (NLP). Contrairement au mécanisme d'attention de ViT, le modèle S6 réduit efficacement la complexité quadratique à la linéarité en interagissant avec chaque élément du vecteur 1D avec les informations d'analyse précédente. Cette interaction rend VMamba plus efficace lors du traitement de données à grande échelle. Par conséquent, l’introduction du modèle S6 a posé une base solide pour le succès de VMamba.

Cependant, étant donné que les signaux visuels (tels que les images) ne sont pas naturellement ordonnés comme les séquences de texte, la méthode d'analyse des données dans S6 ne peut pas être directement appliquée aux signaux visuels. À cette fin, les chercheurs ont conçu un mécanisme d’analyse Cross-Scan. Le module Cross-Scan (CSM) adopte une stratégie d'analyse à quatre voies, c'est-à-dire une analyse simultanée à partir des quatre coins de la carte des caractéristiques (voir la figure ci-dessus). Cette stratégie garantit que chaque élément de la fonctionnalité intègre les informations provenant de tous les autres emplacements dans des directions différentes, formant ainsi un champ récepteur global sans augmenter la complexité de calcul linéaire.

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

Basé sur CSM, l'auteur a conçu le module 2D-selective-scan (SS2D). Comme le montre la figure ci-dessus, SS2D se compose de trois étapes :

  • scan expand aplatit une entité 2D en un vecteur 1D dans 4 directions différentes (supérieur gauche, inférieur droit, inférieur gauche, supérieur droit).
  • Le bloc S6 envoie indépendamment les 4 vecteurs 1D obtenus à l'étape précédente à l'opération S6. La fusion par numérisation fusionne les 4 vecteurs 1D résultants en une sortie de fonctionnalité 2D.

L'image ci-dessus est le schéma de structure VMamba proposé dans cet article. Le cadre global de VMamba est similaire au modèle visuel traditionnel. La principale différence réside dans les opérateurs utilisés dans le module de base (bloc VSS). Le bloc VSS utilise l'opération de balayage sélectif 2D présentée ci-dessus, à savoir SS2D. SS2D garantit que VMamba atteint le Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMambachamp réceptif global au prix de la

complexité linéaire

.

Résultats expérimentaux

Classification ImageNet

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

Il n'est pas difficile de voir que sous des quantités de paramètres et des FLOP similaires :

  • VMamba-T a atteint 82,2% La prestation dépasse RegNetY-4G de 2,2 %, DeiT-S de 2,4 % et Swin-T de 0,9 %.
  • VMamba-S a réalisé une performance de 83,5%, dépassant RegNetY-8G de 1,8% et Swin-S de 0,5%.
  • VMamba-B a réalisé une performance de 83,2% (il y a des bugs, les résultats corrects seront mis à jour sur la page Github dès que possible), soit 0,3% de plus que RegNetY.

Ces résultats sont bien supérieurs au modèle Vision Mamba (Vim), vérifiant pleinement le potentiel de VMamba.

Détection de cible COCO

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

Sur l'ensemble de données COOCO, VMamba maintient également d'excellentes performances : dans le cas d'un réglage fin de 12 époques, VMamba-T/S/B ont respectivement atteint 46,5%/ 48,2 %/48,5 % mAP, dépassant Swin-T/S/B de 3,8 %/3,6 %/1,6 % mAP et dépassant ConvNeXt-T/S/B de 2,3 %/2,8 %/1,5 % mAP. Ces résultats vérifient que VMamba fonctionne pleinement dans les expériences visuelles en aval, démontrant son potentiel à remplacer les modèles visuels de base traditionnels.

Segmentation sémantique ADE20K

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

Sur ADE20K, VMamba a également montré d'excellentes performances. Le modèle VMamba-T atteint 47,3 % mIoU à une résolution de 512 × 512, un score qui surpasse tous les concurrents, notamment ResNet, DeiT, Swin et ConvNeXt. Cet avantage peut toujours être conservé sous le modèle VMamba-S/B.

Expérience d'analyse

Champ récepteur efficace

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

VMamba a un champ récepteur efficace global, et seul DeiT parmi d'autres modèles possède cette fonctionnalité. Cependant, il convient de noter que le coût de DeiT est une complexité quadratique, tandis que VMamaba est une complexité linéaire.

Mise à l'échelle de l'échelle d'entrée

Le moment Swin du modèle visuel Mamba, lAcadémie chinoise des sciences, Huawei et dautres ont lancé VMamba

  • La figure (a) ci-dessus montre que VMamba présente les performances les plus stables (sans réglage fin) sous différentes tailles d'image d'entrée. Fait intéressant, à mesure que la taille d'entrée augmente de 224 × 224 à 384 × 384, seul VMamba présente une augmentation significative des performances (VMamba-S de 83,5 % à 84,0 %), soulignant sa robustesse aux changements de taille d'image d'entrée en fonction du sexe.
  • La figure (b) ci-dessus montre que la complexité des modèles de la série VMamba augmente linéairement à mesure que l'entrée devient plus grande, ce qui est cohérent avec le modèle CNN.

Enfin, attendons avec impatience que davantage de modèles de vision basés sur Mamba soient proposés, aux côtés des CNN et des ViT, pour fournir une troisième option pour les modèles de vision de base.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer