Transformer在大模型領域的地位無可撼動。然而,隨著模型規模的擴展和序列長度的增加,傳統的Transformer架構的限制開始凸顯。幸運的是,Mamba的問世正迅速改變這一現狀。它出色的性能立即引起了AI界的轟動。 Mamba的出現為大規模模型的訓練和序列處理帶來了巨大的突破。它的優勢在AI界迅速蔓延,為未來的研究和應用帶來了巨大的希望。
上週四, Vision Mamba(Vim)的提議已經展現了它成為視覺基礎模型的下一代骨幹的巨大潛力。每隔一天,中國科學院、華為、鵬城實驗室的研究人員提出了 VMamba:一種具有全局感受野、線性複雜度的視覺 Mamba 模型。 這項工作標誌著視覺 Mamba 模型 Swin 時刻的來臨。
- #論文標題:VMamba: Visual State Space Model
- 論文網址: https://arxiv.org/abs/2401.10166
- 程式碼位址: https://github.com/MzeroMiko/VMamba
#CNN 和視覺Transformer(ViT)是目前最主流的兩類基礎視覺模型。儘管 CNN 具有線性複雜度,ViT 具有更強大的數據擬合能力,然而代價是計算複雜較高。 研究者認為 ViT 之所以擬合能力強,是因為其具有全域感受野和動態權重。受 Mamba 模型的啟發,研究者設計出在線性複雜度下同時具有這兩種優秀性質的模型,即 Visual State Space Model(VMamba)。 大量的實驗證明,VMamba 在各種視覺任務中表現卓越。 如下圖所示,VMamba-S 在 ImageNet-1K 上達到 83.5% 的正確率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。
方法介紹
VMamba 的成功關鍵在於採用了S6 模型,這個模型最初是為了解決自然語言處理(NLP)任務而設計的。與 ViT 的注意力機制不同,S6 模型透過將 1D 向量中的每個元素與先前的掃描資訊進行交互,有效地將二次複雜度降低為線性。這種互動方式使得 VMamba 在處理大規模資料時更加有效率。因此,S6 模型的引入為 VMamba 的成功打下了堅實的基礎。
然而,由於視覺訊號(如圖像)不像文字序列那樣具有天然的有序性,因此無法在視覺訊號上簡單地對S6 中的資料掃描方法進行直接應用。為此研究者設計了 Cross-Scan 掃描機制。 Cross-Scan 模組(CSM)採用四向掃描策略,即從特徵圖的四個角落同時掃描(見上圖)。 此策略確保特徵中的每個元素都以不同方向從所有其他位置整合訊息,從而形成全局感受野,又不增加線性計算複雜度。
在 CSM 的基礎上,作者設計了 2D-selective-scan(SS2D)模組。如上圖所示,SS2D 包含了三個步驟:
- scan expand 將一個2D 特徵沿著4 個不同方向(左上、右下、左下、右上)展平為1D 向量。
- S6 block 獨立地將上步得到的 4 個 1D 向量送入 S6 運算。
- scan merge 將得到的 4 個 1D 向量融合為一個 2D 特徵輸出。
上圖為本文所提出的 VMamba 結構圖。 VMamba 的整體框架與主流的視覺模型類似,其主要差異在於基本模組(VSS block)中採用的算符不同。 VSS block 採用了上述介紹的 2D-selective-scan 操作,即 SS2D。 SS2D 保證了 VMamba 在線性複雜度的代價下實現全域感受野。
#實驗結果
ImageNet 分類
##透過比較實驗結果不難看出,在相似的參數量和FLOPs 下:
- #VMamba-T 取得了 82.2% 的效能,超過RegNetY- 4G 達2.2%、DeiT-S 達2.4%、Swin-T 達0.9%。
- VMamba-S 取得了 83.5% 的效能,超過 RegNetY-8G 達 1.8%,Swin-S 達 0.5%。
- VMamba-B 取得了 83.2% 的效能(有 bug,正確結果會盡快在 Github 頁面更新),比 RegNetY 高 0.3%。
這些結果遠高於 Vision Mamba (Vim) 模型,充分驗證了 VMamba 的潛力。
COCO 目標偵測
#在COOCO 資料集上,VMamba 也保持卓越性能:在fine-tune 12 epochs 的情況下,VMamba-T/S/B 分別達到46.5%/48.2%/48.5% mAP,超過了Swin-T/S/B 達3.8%/3.6%/1.6 % mAP,超過ConvNeXt-T/S/B 達2.3%/2.8%/1.5% mAP。這些結果驗證了 VMamba 在視覺下游實驗中完全 work,展現出了能平替主流基礎視覺模型的潛力。
ADE20K 語意分割
在ADE20K 上,VMamba 也表現出卓越性能。 VMamba-T 模型在 512 × 512 解析度下實現 47.3% 的 mIoU,這個分數超越了所有競爭對手,包括 ResNet,DeiT,Swin 和 ConvNeXt。這種優勢在 VMamba-S/B 模型下依然能夠維持。
分析實驗
有效感受野
VMamba 具有全域的有效感受野,其他模型中只有DeiT 具有這個特性。但值得注意的是,DeiT 的代價是平方級的複雜度,而 VMamaba 是線性複雜度。
輸入尺度縮放
- #上圖(a)顯示,VMamba 在不同輸入影像尺寸下展現最穩定的性能(不微調)。有趣的是,隨著輸入尺寸從224 × 224 增加到384 × 384,只有VMamba 表現出效能明顯上升的趨勢(VMamba-S 從83.5% 上升到84.0%),突顯了其對輸入影像大小變化的穩健性。
- 上圖(b)顯示,VMamba 系列模型隨著輸入變大,複雜度呈現線性成長,這與 CNN 模型是一致的。
最後,讓我們期待更多基於 Mamba 的視覺模型被提出,並列於 CNNs 和 ViTs,為基礎視覺模型提供第三種選擇。
以上是視覺Mamba模型的Swin時刻,中科院、華為等推出VMamba的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)