대형 모델 분야에서 트랜스포머의 입지는 흔들리지 않습니다. 그러나 모델 규모가 확장되고 시퀀스 길이가 증가함에 따라 기존 Transformer 아키텍처의 한계가 명백해지기 시작합니다. 다행히도 Mamba의 등장으로 이러한 상황이 빠르게 변화하고 있습니다. 그 뛰어난 성능은 즉시 AI 커뮤니티에 센세이션을 일으켰습니다. Mamba의 출현은 대규모 모델 훈련 및 시퀀스 처리에 큰 혁신을 가져왔습니다. 그 장점은 AI 커뮤니티에서 빠르게 확산되고 있어 향후 연구와 응용에 큰 희망을 불러일으키고 있습니다.
지난 목요일 Vision Mamba(Vim)의 출시로 비주얼 베이직 모델의 차세대 백본이 될 수 있는 큰 잠재력을 입증했습니다. 단 하루 후, 중국과학원, Huawei 및 Pengcheng 연구소의 연구원들이 VMamba를 제안했습니다. 전역 수용 필드와 선형 복잡성을 갖춘 시각적 Mamba 모델입니다. 이 작품은 비주얼 맘바 모델 스윈의 순간을 기념한 작품입니다.
- 논문 제목: VMamba: Visual State Space Model
- 논문 주소: https://arxiv.org/abs/2401.10166
- 코드 주소: https://github .com/MzeroMiko/VMamba
CNN과 ViT(Visual Transformer)는 현재 가장 주류를 이루는 두 가지 기본 시각적 모델입니다. CNN은 선형 복잡성을 갖고 있지만 ViT는 더 강력한 데이터 피팅 기능을 제공하지만 계산 복잡성이 더 높습니다. 연구원들은 ViT가 글로벌 수용 필드와 동적 가중치를 갖기 때문에 강력한 피팅 능력을 가지고 있다고 믿습니다. Mamba 모델에서 영감을 받아 연구원들은 선형 복잡성 하에서 우수한 특성을 모두 갖춘 모델, 즉 VMamba(Visual State Space Model)를 설계했습니다. 광범위한 실험을 통해 VMamba가 다양한 시각적 작업에서 탁월한 성능을 발휘한다는 것이 입증되었습니다. 아래 그림에서 볼 수 있듯이 VMamba-S는 ImageNet-1K에서 83.5%의 정확도를 달성합니다. 이는 Vim-S보다 3.2%, Swin-S보다 0.5% 더 높습니다.
방법 소개
VMamba의 성공 비결은 원래 자연어 처리(NLP) 작업을 해결하기 위해 설계된 S6 모델의 채택에 있습니다. ViT의 어텐션 메커니즘과 달리 S6 모델은 1D 벡터의 각 요소를 이전 스캔 정보와 상호 작용하여 선형성에 대한 2차 복잡성을 효과적으로 줄입니다. 이러한 상호 작용을 통해 VMamba는 대규모 데이터를 처리할 때 더욱 효율적입니다. 따라서 S6 모델의 출시는 VMamba의 성공을 위한 견고한 기반을 마련했습니다.
그러나 시각적 신호(예: 이미지)는 텍스트 시퀀스처럼 자연스럽게 정렬되지 않으므로 S6의 데이터 스캐닝 방법을 시각적 신호에 직접 적용할 수는 없습니다. 이를 위해 연구자들은 크로스 스캔 스캐닝 메커니즘을 설계했습니다. 크로스 스캔 모듈(CSM)은 4방향 스캔 전략, 즉 기능 맵의 네 모서리에서 동시에 스캔하는 방식을 채택합니다(위 그림 참조). 이 전략은 기능의 각 요소가 다른 모든 위치의 정보를 서로 다른 방향으로 통합하여 선형 계산 복잡성을 증가시키지 않고 전역 수용 필드를 형성하도록 보장합니다.
저자는 CSM을 기반으로 SS2D(2D-Selective-Scan) 모듈을 설계했습니다. 위 그림에 표시된 것처럼 SS2D는 세 단계로 구성됩니다.
- 스캔 확장은 2D 형상을 4가지 방향(왼쪽 위, 오른쪽 아래, 왼쪽 아래, 오른쪽 위)을 따라 1D 벡터로 평면화합니다.
- S6 블록은 이전 단계에서 얻은 4개의 1D 벡터를 독립적으로 S6 작업에 보냅니다.
- 스캔 병합은 결과 4개의 1D 벡터를 2D 기능 출력으로 융합합니다.
위 사진은 본 글에서 제안하는 VMamba 구조도이다. VMamba의 전체 프레임워크는 주류 시각적 모델과 유사합니다. 주요 차이점은 기본 모듈(VSS 블록)에 사용되는 연산자에 있습니다. VSS 블록은 위에서 소개한 2D 선택적 스캔 작업, 즉 SS2D를 사용합니다. SS2D는 VMamba가 선형 복잡성을 희생하면서 글로벌 수용 필드를 달성하도록 보장합니다.
실험 결과
ImageNet 분류
유사한 매개변수 양과 FLOP에서
- VMamba-T 달성 82 .2%를 확인하는 것은 어렵지 않습니다. 공연 RegNetY-4G를 2.2%, DeiT-S를 2.4%, Swin-T를 0.9% 초과합니다.
- VMamba-S는 83.5%의 성능을 달성하여 RegNetY-8G를 1.8%, Swin-S를 0.5% 능가했습니다.
- VMamba-B는 RegNetY보다 0.3% 높은 83.2%의 성능을 달성했습니다(버그가 있으며, 정확한 결과는 가능한 한 빨리 Github 페이지에 업데이트됩니다).
이러한 결과는 Vision Mamba(Vim) 모델보다 훨씬 높아 VMamba의 잠재력을 충분히 검증합니다. ㅋㅋㅋ 48.2%/48.5% mAP, Swin-T/S/B를 3.8%/3.6%/1.6% mAP 초과, ConvNeXt-T/S/B를 2.3%/2.8%/1.5% mAP 초과. 이러한 결과는 VMamba가 시각적 다운스트림 실험에서 완벽하게 작동함을 확인하고 주류 기본 시각적 모델을 대체할 수 있는 잠재력을 보여줍니다.
ADE20K Semantic Segmentation
ADE20K에서도 VMamba가 뛰어난 성능을 보여주었습니다. VMamba-T 모델은 512 × 512 해상도에서 47.3% mIoU를 달성했는데, 이는 ResNet, DeiT, Swin 및 ConvNeXt를 포함한 모든 경쟁사를 능가하는 점수입니다. 이러한 장점은 VMamba-S/B 모델에서도 여전히 유지될 수 있습니다.
분석실험
유효수용장
VMamba는 전역 유효수용장을 가지고 있는데, 다른 모델 중 DeiT만이 이 기능을 가지고 있습니다. 그러나 DeiT의 비용은 2차 복잡도인 반면 VMamaba는 선형 복잡도라는 점은 주목할 가치가 있습니다.
입력 크기 조정
위 그림(a)은 VMamba가 다양한 입력 이미지 크기에서 (미세 조정 없이) 가장 안정적인 성능을 나타냄을 보여줍니다. 흥미롭게도 입력 크기가 224×224에서 384×384로 증가함에 따라 VMamba만이 성능이 크게 향상되어(VMamba-S가 83.5%에서 84.0%로) 입력 이미지 크기 성별 변화에 대한 견고성을 강조합니다.
위 그림 (b)는 VMamba 시리즈 모델의 복잡도가 입력이 커질수록 선형적으로 증가한다는 것을 보여주며 이는 CNN 모델과 일치합니다.
마지막으로 기본 비전 모델에 대한 세 번째 옵션을 제공하기 위해 CNN 및 ViT와 함께 더 많은 Mamba 기반 비전 모델이 제안되기를 기대해 보겠습니다.
위 내용은 시각적 Mamba 모델의 Swin 순간, 중국과학원, Huawei 등이 VMamba 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

WebStorm Mac 버전
유용한 JavaScript 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기
