検索
ホームページテクノロジー周辺機器AIビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

大型モデルの分野におけるトランスフォーマーの地位は揺るぎません。ただし、モデルの規模が拡大し、シーケンスの長さが増加するにつれて、従来の Transformer アーキテクチャの限界が明らかになり始めます。幸いなことに、Mamba の出現により、この状況は急速に変わりつつあります。その卓越したパフォーマンスはすぐに AI コミュニティにセンセーションを巻き起こしました。 Mamba の出現は、大規模なモデルのトレーニングとシーケンス処理に大きな進歩をもたらしました。その利点は AI コミュニティに急速に広がり、将来の研究と応用に大きな期待をもたらしています。

先週の木曜日、Vision Mamba (Vim) の導入により、ビジュアル ベーシック モデルの次世代のバックボーンとなる大きな可能性が実証されました。わずか 1 日後、中国科学院、ファーウェイ、彭城研究所の研究者は、VMamba:グローバルな受容野と線形複雑性を備えた視覚的な Mamba モデルを提案しました。 この作品は、視覚的なマンバ モデル Swin の瞬間の到来を示します。

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ


  • 論文のタイトル: VMamba: ビジュアル状態空間モデル
  • #ペーパーアドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba
  • #CNN と Visual Transformer (ViT) は、現在最も主流の 2 つの基本的なビジュアル モデルです。 CNN は線形の複雑さを持っていますが、ViT はより強力なデータ フィッティング機能を備えていますが、その代わりに計算の複雑さが高くなります。
研究者らは、ViT にはグローバルな受容野と動的重みがあるため、強力なフィッティング能力があると考えています。 Mamba モデルに触発されて、研究者たちは、線形複雑さの下で両方の優れた特性を備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。

大規模な実験により、VMamba がさまざまな視覚的なタスクで適切にパフォーマンスを発揮することが証明されました。 下の図に示すように、VMamba-S は ImageNet-1K 上で 83.5% の精度を達成します。これは Vim-S より 3.2%、Swin-S より 0.5% 高くなります。

#メソッドの紹介ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

成功VMamba 鍵となるのは、もともと自然言語処理 (NLP) タスクを解決するために設計された S6 モデルの使用です。 ViT のアテンション メカニズムとは異なり、S6 モデルは、1D ベクトルの各要素を以前のスキャン情報と相互作用させることにより、二次複雑性を線形性に効果的に軽減します。この対話により、大規模なデータを処理する際の VMamba の効率が向上します。したがって、S6 モデルの導入は、VMamba の成功の強固な基盤を築きました。 ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

ただし、視覚信号 (画像など) にはテキストシーケンスのような自然な秩序性がないため、S6 のデータ スキャン方法を単純に視覚信号に対して直接実行することはできません。この目的のために、研究者はクロススキャン スキャン機構を設計しました。 クロススキャン モジュール (CSM) は、4 方向のスキャン戦略、つまり、特徴マップの 4 つの隅から同時にスキャンする戦略を採用しています (上の図を参照)。

この戦略により、フィーチャ内の各要素が他のすべての場所からの情報をさまざまな方向に統合し、線形の計算の複雑さを増加させることなくグローバルな受容野を形成することが保証されます。

CSM に基づいて、著者は 2D 選択的スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は 3 つのステップで構成されます。 ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

#scan Expand 2D フィーチャを 4 つの異なる方向 (左上、右下、左下、上) にフラット化する右) は 1D ベクトルです。

  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを独立して S6 オペレーションに送信します。
  • スキャン マージは、取得された 4 つの 1D ベクトルを 2D 特徴出力に融合します。
#上の図は、この記事で提案する VMamba の構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用される演算子にあります。 VSS ブロックは、上で紹介した 2D 選択的スキャン操作、つまり SS2D を使用します。 SS2D は、VMamba が

線形複雑さ ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ のコストで

グローバル受容野を達成することを保証します。

#実験結果

ImageNet 分類

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

#合格 比較実験結果を見ると、同様のパラメータ量と FLOP の下で、

    VMamba-T は
  • 82.2% のパフォーマンスを達成し、次のことを確認するのは難しくありません。 RegNetY-4G は 2.2%、DeiT-S は 2.4%、Swin-T は 0.9% に達しました。
  • VMamba-S は
  • 83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は
  • 83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページで更新されます)。 RegNetYより0.3%高いです。
これらの結果は、Vision Mamba (Vim) モデルよりもはるかに優れており、VMamba の可能性を完全に検証しています。

COCO ターゲットの検出

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

COOCO データ セットでは、VMamba も優れたパフォーマンスの維持: 12 エポックの微調整の場合、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP に達し、Swin-T/S/B を 3.8%/3.6%/1.6% 上回りました。 mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回ります。これらの結果は、VMamba が下流のビジュアル実験で完全に機能することを検証し、主流の基本的なビジュアル モデルを置き換える可能性を示しています。

ADE20K セマンティック セグメンテーション

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

ADE20K では、VMamba も優れたパフォーマンスを示します。 VMamba-T モデルは、512 × 512 の解像度で 47.3% の mIoU を達成し、これは ResNet、DeiT、Swin、ConvNeXt を含むすべての競合他社を上回るスコアです。この利点は、VMamba-S/B モデルでも引き続き維持できます。

分析実験

有効受容野

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

VMamba はグローバルな有効受容野を備えており、この機能を備えているのは他のモデルの中で DeiT だけです。ただし、DeiT のコストは二次計算量であるのに対し、VMamaba は線形計算量であることに注意してください。

#入力スケール スケーリング

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

上の図 (a) VMamba は、さまざまな入力画像サイズの下で (微調整なしで) 最も安定したパフォーマンスを示すことが示されています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加するにつれて、VMamba のみがパフォーマンスの大幅な向上を示し (VMamba-S は 83.5% から 84.0% に)、入力画像サイズの性別の変化に対する堅牢性が強調されています。
  • 上の図 (b) は、入力が大きくなるにつれて VMamba シリーズ モデルの複雑さが直線的に増加することを示しており、これは CNN モデルと一致しています。
  • 最後に、基本的なビジョン モデルの 3 番目のオプションとして、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案されることに期待しましょう。

以上がビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますMicrosoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ます中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますDockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用する6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますGoogleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますDescopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター