首頁 >科技週邊 >人工智慧 >視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

WBOY
WBOY轉載
2024-01-22 15:21:11939瀏覽

Transformer在大模型領域的地位無可撼動。然而,隨著模型規模的擴展和序列長度的增加,傳統的Transformer架構的限制開始凸顯。幸運的是,Mamba的問世正迅速改變這一現狀。它出色的性能立即引起了AI界的轟動。 Mamba的出現為大規模模型的訓練和序列處理帶來了巨大的突破。它的優勢在AI界迅速蔓延,為未來的研究和應用帶來了巨大的希望。

上週四, Vision Mamba(Vim)的提議已經展現了它成為視覺基礎模型的下一代骨幹的巨大潛力。每隔一天,中國科學院、華為、鵬城實驗室的研究人員提出了 VMamba:一種具有全局感受野、線性複雜度的視覺 Mamba 模型。 這項工作標誌著視覺 Mamba 模型 Swin 時刻的來臨。

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba


  • #論文標題:VMamba: Visual State Space Model
  • 論文網址: https://arxiv.org/abs/2401.10166
  • 程式碼位址: https://github.com/MzeroMiko/VMamba

#CNN 和視覺Transformer(ViT)是目前最主流的兩類基礎視覺模型。儘管 CNN 具有線性複雜度,ViT 具有更強大的數據擬合能力,然而代價是計算複雜較高。 研究者認為 ViT 之所以擬合能力強,是因為其具有全域感受野和動態權重。受 Mamba 模型的啟發,研究者設計出在線性複雜度下同時具有這兩種優秀性質的模型,即 Visual State Space Model(VMamba)。 大量的實驗證明,VMamba 在各種視覺任務中表現卓越。 如下圖所示,VMamba-S 在 ImageNet-1K 上達到 83.5% 的正確率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

方法介紹

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

VMamba 的成功關鍵在於採用了S6 模型,這個模型最初是為了解決自然語言處理(NLP)任務而設計的。與 ViT 的注意力機制不同,S6 模型透過將 1D 向量中的每個元素與先前的掃描資訊進行交互,有效地將二次複雜度降低為線性。這種互動方式使得 VMamba 在處理大規模資料時更加有效率。因此,S6 模型的引入為 VMamba 的成功打下了堅實的基礎。

然而,由於視覺訊號(如圖像)不像文字序列那樣具有天然的有序性,因此無法在視覺訊號上簡單地對S6 中的資料掃描方法進行直接應用。為此研究者設計了 Cross-Scan 掃描機制。 Cross-Scan 模組(CSM)採用四向掃描策略,即從特徵圖的四個角落同時掃描(見上圖)。 此策略確保特徵中的每個元素都以不同方向從所有其他位置整合訊息,從而形成全局感受野,又不增加線性計算複雜度。

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

在 CSM 的基礎上,作者設計了 2D-selective-scan(SS2D)模組。如上圖所示,SS2D 包含了三個步驟:

  • scan expand 將一個2D 特徵沿著4 個不同方向(左上、右下、左下、右上)展平為1D 向量。
  • S6 block 獨立地將上步得到的 4 個 1D 向量送入 S6 運算。
  • scan merge 將得到的 4 個 1D 向量融合為一個 2D 特徵輸出。

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

上圖為本文所提出的 VMamba 結構圖。 VMamba 的整體框架與主流的視覺模型類似,其主要差異在於基本模組(VSS block)中採用的算符不同。 VSS block 採用了上述介紹的 2D-selective-scan 操作,即 SS2D。 SS2D 保證了 VMamba 在線性複雜度的代價下實現全域感受野。

#

實驗結果

ImageNet 分類

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

##透過比較實驗結果不難看出,在相似的參數量和FLOPs 下:

  • #VMamba-T 取得了 82.2% 的效能,超過RegNetY- 4G 達2.2%、DeiT-S 達2.4%、Swin-T 達0.9%。
  • VMamba-S 取得了 83.5% 的效能,超過 RegNetY-8G 達 1.8%,Swin-S 達 0.5%。
  • VMamba-B 取得了 83.2% 的效能(有 bug,正確結果會盡快在 Github 頁面更新),比 RegNetY 高 0.3%。

這些結果遠高於 Vision Mamba (Vim) 模型,充分驗證了 VMamba 的潛力。

COCO 目標偵測

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

#在COOCO 資料集上,VMamba 也保持卓越性能:在fine-tune 12 epochs 的情況下,VMamba-T/S/B 分別達到46.5%/48.2%/48.5% mAP,超過了Swin-T/S/B 達3.8%/3.6%/1.6 % mAP,超過ConvNeXt-T/S/B 達2.3%/2.8%/1.5% mAP。這些結果驗證了 VMamba 在視覺下游實驗中完全 work,展現出了能平替主流基礎視覺模型的潛力。

ADE20K 語意分割

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

在ADE20K 上,VMamba 也表現出卓越性能。 VMamba-T 模型在 512 × 512 解析度下實現 47.3% 的 mIoU,這個分數超越了所有競爭對手,包括 ResNet,DeiT,Swin 和 ConvNeXt。這種優勢在 VMamba-S/B 模型下依然能夠維持。

分析實驗

有效感受野

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

VMamba 具有全域的有效感受野,其他模型中只有DeiT 具有這個特性。但值得注意的是,DeiT 的代價是平方級的複雜度,而 VMamaba 是線性複雜度。

輸入尺度縮放

視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba

  • #上圖(a)顯示,VMamba 在不同輸入影像尺寸下展現最穩定的性能(不微調)。有趣的是,隨著輸入尺寸從224 × 224 增加到384 × 384,只有VMamba 表現出效能明顯上升的趨勢(VMamba-S 從83.5% 上升到84.0%),突顯了其對輸入影像大小變化的穩健性。
  • 上圖(b)顯示,VMamba 系列模型隨著輸入變大,複雜度呈現線性成長,這與 CNN 模型是一致的。

最後,讓我們期待更多基於 Mamba 的視覺模型被提出,並列於 CNNs 和 ViTs,為基礎視覺模型提供第三種選擇。

以上是視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除