찾다
기술 주변기기일체 포함시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

대형 모델 분야에서 트랜스포머의 입지는 흔들리지 않습니다. 그러나 모델 규모가 확장되고 시퀀스 길이가 증가함에 따라 기존 Transformer 아키텍처의 한계가 명백해지기 시작합니다. 다행히도 Mamba의 등장으로 이러한 상황이 빠르게 변화하고 있습니다. 그 뛰어난 성능은 즉시 AI 커뮤니티에 센세이션을 일으켰습니다. Mamba의 출현은 대규모 모델 훈련 및 시퀀스 처리에 큰 혁신을 가져왔습니다. 그 장점은 AI 커뮤니티에서 빠르게 확산되고 있어 향후 연구와 응용에 큰 희망을 불러일으키고 있습니다.

지난 목요일 Vision Mamba(Vim)의 출시로 비주얼 베이직 모델의 차세대 백본이 될 수 있는 큰 잠재력을 입증했습니다. 단 하루 후, 중국과학원, Huawei 및 Pengcheng 연구소의 연구원들이 VMamba를 제안했습니다. 전역 수용 필드와 선형 복잡성을 갖춘 시각적 Mamba 모델입니다. 이 작품은 비주얼 맘바 모델 스윈의 순간을 기념한 작품입니다.

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시


  • 논문 제목: VMamba: Visual State Space Model
  • 논문 주소: https://arxiv.org/abs/2401.10166
  • 코드 주소: https://github .com/MzeroMiko/VMamba

CNN과 ViT(Visual Transformer)는 현재 가장 주류를 이루는 두 가지 기본 시각적 모델입니다. CNN은 선형 복잡성을 갖고 있지만 ViT는 더 강력한 데이터 피팅 기능을 제공하지만 계산 복잡성이 더 높습니다. 연구원들은 ViT가 글로벌 수용 필드와 동적 가중치를 갖기 때문에 강력한 피팅 능력을 가지고 있다고 믿습니다. Mamba 모델에서 영감을 받아 연구원들은 선형 복잡성 하에서 우수한 특성을 모두 갖춘 모델, 즉 VMamba(Visual State Space Model)를 설계했습니다. 광범위한 실험을 통해 VMamba가 다양한 시각적 작업에서 탁월한 성능을 발휘한다는 것이 입증되었습니다. 아래 그림에서 볼 수 있듯이 VMamba-S는 ImageNet-1K에서 83.5%의 정확도를 달성합니다. 이는 Vim-S보다 3.2%, Swin-S보다 0.5% 더 높습니다.

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

방법 소개

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

VMamba의 성공 비결은 원래 자연어 처리(NLP) 작업을 해결하기 위해 설계된 S6 모델의 채택에 있습니다. ViT의 어텐션 메커니즘과 달리 S6 모델은 1D 벡터의 각 요소를 이전 스캔 정보와 상호 작용하여 선형성에 대한 2차 복잡성을 효과적으로 줄입니다. 이러한 상호 작용을 통해 VMamba는 대규모 데이터를 처리할 때 더욱 효율적입니다. 따라서 S6 모델의 출시는 VMamba의 성공을 위한 견고한 기반을 마련했습니다.

그러나 시각적 신호(예: 이미지)는 텍스트 시퀀스처럼 자연스럽게 정렬되지 않으므로 S6의 데이터 스캐닝 방법을 시각적 신호에 직접 적용할 수는 없습니다. 이를 위해 연구자들은 크로스 스캔 스캐닝 메커니즘을 설계했습니다. 크로스 스캔 모듈(CSM)은 4방향 스캔 전략, 즉 기능 맵의 네 모서리에서 동시에 스캔하는 방식을 채택합니다(위 그림 참조). 이 전략은 기능의 각 요소가 다른 모든 위치의 정보를 서로 다른 방향으로 통합하여 선형 계산 복잡성을 증가시키지 않고 전역 수용 필드를 형성하도록 보장합니다.

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

저자는 CSM을 기반으로 SS2D(2D-Selective-Scan) 모듈을 설계했습니다. 위 그림에 표시된 것처럼 SS2D는 세 단계로 구성됩니다.

  • 스캔 확장은 2D 형상을 4가지 방향(왼쪽 위, 오른쪽 아래, 왼쪽 아래, 오른쪽 위)을 따라 1D 벡터로 평면화합니다.
  • S6 블록은 이전 단계에서 얻은 4개의 1D 벡터를 독립적으로 S6 작업에 보냅니다.
  • 스캔 병합은 결과 4개의 1D 벡터를 2D 기능 출력으로 융합합니다.

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

위 사진은 본 글에서 제안하는 VMamba 구조도이다. VMamba의 전체 프레임워크는 주류 시각적 모델과 유사합니다. 주요 차이점은 기본 모듈(VSS 블록)에 사용되는 연산자에 있습니다. VSS 블록은 위에서 소개한 2D 선택적 스캔 작업, 즉 SS2D를 사용합니다. SS2D는 VMamba가 선형 복잡성을 희생하면서 글로벌 수용 필드를 달성하도록 보장합니다.

실험 결과

ImageNet 분류

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

유사한 매개변수 양과 FLOP에서

  • VMamba-T 달성 82 .2%를 확인하는 것은 어렵지 않습니다. 공연 RegNetY-4G를 2.2%, DeiT-S를 2.4%, Swin-T를 0.9% 초과합니다.
  • VMamba-S는 83.5%의 성능을 달성하여 RegNetY-8G를 1.8%, Swin-S를 0.5% 능가했습니다.
  • VMamba-B는 RegNetY보다 0.3% 높은 83.2%의 성능을 달성했습니다(버그가 있으며, 정확한 결과는 가능한 한 빨리 Github 페이지에 업데이트됩니다).

이러한 결과는 Vision Mamba(Vim) 모델보다 훨씬 높아 VMamba의 잠재력을 충분히 검증합니다. ㅋㅋㅋ 48.2%/48.5% mAP, Swin-T/S/B를 3.8%/3.6%/1.6% mAP 초과, ConvNeXt-T/S/B를 2.3%/2.8%/1.5% mAP 초과. 이러한 결과는 VMamba가 시각적 다운스트림 실험에서 완벽하게 작동함을 확인하고 주류 기본 시각적 모델을 대체할 수 있는 잠재력을 보여줍니다.

ADE20K Semantic Segmentation

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

ADE20K에서도 VMamba가 뛰어난 성능을 보여주었습니다. VMamba-T 모델은 512 × 512 해상도에서 47.3% mIoU를 달성했는데, 이는 ResNet, DeiT, Swin 및 ConvNeXt를 포함한 모든 경쟁사를 능가하는 점수입니다. 이러한 장점은 VMamba-S/B 모델에서도 여전히 유지될 수 있습니다.

분석실험

유효수용장시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

VMamba는 전역 유효수용장을 가지고 있는데, 다른 모델 중 DeiT만이 이 기능을 가지고 있습니다. 그러나 DeiT의 비용은 2차 복잡도인 반면 VMamaba는 선형 복잡도라는 점은 주목할 가치가 있습니다.

입력 크기 조정

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시

위 그림(a)은 VMamba가 다양한 입력 이미지 크기에서 (미세 조정 없이) 가장 안정적인 성능을 나타냄을 보여줍니다. 흥미롭게도 입력 크기가 224×224에서 384×384로 증가함에 따라 VMamba만이 성능이 크게 향상되어(VMamba-S가 83.5%에서 84.0%로) 입력 이미지 크기 성별 변화에 대한 견고성을 강조합니다.

위 그림 (b)는 VMamba 시리즈 모델의 복잡도가 입력이 커질수록 선형적으로 증가한다는 것을 보여주며 이는 CNN 모델과 일치합니다.

시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시마지막으로 기본 비전 모델에 대한 세 번째 옵션을 제공하기 위해 CNN 및 ViT와 함께 더 많은 Mamba 기반 비전 모델이 제안되기를 기대해 보겠습니다.

    위 내용은 시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명
    이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
    AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

    Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

    Meta Llama 3.2- 분석 Vidhya를 시작합니다Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

    메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

    AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

    이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

    기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

    연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

    파이썬의 Scipy 라이브러리 이해파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

    소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

    LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaLLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

    메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

    Dagster와 데이터 품질 검사 자동화Dagster와 데이터 품질 검사 자동화Apr 11, 2025 am 11:44 AM

    데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

    메인 프레임은 AI 시대에 역할을합니까?메인 프레임은 AI 시대에 역할을합니까?Apr 11, 2025 am 11:42 AM

    메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다

    See all articles

    핫 AI 도구

    Undresser.AI Undress

    Undresser.AI Undress

    사실적인 누드 사진을 만들기 위한 AI 기반 앱

    AI Clothes Remover

    AI Clothes Remover

    사진에서 옷을 제거하는 온라인 AI 도구입니다.

    Undress AI Tool

    Undress AI Tool

    무료로 이미지를 벗다

    Clothoff.io

    Clothoff.io

    AI 옷 제거제

    AI Hentai Generator

    AI Hentai Generator

    AI Hentai를 무료로 생성하십시오.

    인기 기사

    R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
    3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O. 최고의 그래픽 설정
    3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
    3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
    WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
    3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

    뜨거운 도구

    WebStorm Mac 버전

    WebStorm Mac 버전

    유용한 JavaScript 개발 도구

    맨티스BT

    맨티스BT

    Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

    SecList

    SecList

    SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

    VSCode Windows 64비트 다운로드

    VSCode Windows 64비트 다운로드

    Microsoft에서 출시한 강력한 무료 IDE 편집기

    Atom Editor Mac 버전 다운로드

    Atom Editor Mac 버전 다운로드

    가장 인기 있는 오픈 소스 편집기