>기술 주변기기 >일체 포함 >Vision Transformer(VIT) 모델의 작동 원리 및 특성에 대한 심층 분석

Vision Transformer(VIT) 모델의 작동 원리 및 특성에 대한 심층 분석

王林
王林앞으로
2024-01-23 08:30:241354검색

什么是Vision Transformer(VIT)?Vision Transformer模型详解

Vision Transformer(VIT)는 Google에서 제안하는 Transformer 기반 이미지 분류 모델입니다. 기존 CNN 모델과 달리 VIT는 이미지를 시퀀스로 표현하고 이미지의 클래스 레이블을 예측하여 이미지 구조를 학습합니다. 이를 달성하기 위해 VIT는 입력 이미지를 여러 패치로 나누고 채널을 통해 각 패치의 픽셀을 연결한 다음 선형 투영을 수행하여 원하는 입력 크기를 얻습니다. 마지막으로 각 패치는 단일 벡터로 평면화되어 입력 시퀀스를 형성합니다. Transformer의 self-attention 메커니즘을 통해 VIT는 서로 다른 패치 간의 관계를 캡처하고 효과적인 특징 추출 및 분류 예측을 수행할 수 있습니다. 이 직렬화된 이미지 표현 방법은 컴퓨터 비전 작업에 새로운 아이디어와 효과를 제공합니다.

Vision Transformer 모델은 객체 감지, 이미지 분할, 이미지 분류 및 동작 인식과 같은 이미지 인식 작업에 널리 사용됩니다. 또한 시각적 기초, 시각적 질문 답변, 시각적 추론을 포함한 생성 모델링 및 다중 모델 작업에 적합합니다.

Vision Transformer는 이미지를 어떻게 분류하나요?

Vision Transformer의 작동 방식을 자세히 알아보기 전에 원래 Transformer의 Attention 및 Multi-Head Attention의 기본을 이해해야 합니다.

Transformer는 CNN이나 LSTM이 아닌 self-attention이라는 메커니즘을 사용하는 모델로, Transformer 모델을 구축하고 이러한 방법보다 훨씬 뛰어난 성능을 발휘합니다.

Transformer 모델의 주의 메커니즘은 Q(쿼리), K(키), V(값)의 세 가지 변수를 사용합니다. 간단히 말해서 쿼리 토큰과 키 토큰의 주의 가중치를 계산하고 이를 각 키와 관련된 값으로 곱합니다. 즉, Transformer 모델은 Query 토큰과 Key 토큰 간의 연관(attention Weight)을 계산하고 각 Key와 연관된 Value를 곱합니다.

단일 헤드로 계산되도록 Q, K, V를 정의합니다. 다중 헤드 주의 메커니즘에서 각 헤드는 자체 투영 행렬 W_i^Q, W_i^K, W_i^V를 가지며 투영을 계산합니다. 특성 값에 대해 각각 이러한 주의 가중치를 사용합니다.

다중 헤드 주의 메커니즘을 사용하면 매번 다른 방식으로 시퀀스의 다른 부분에 집중할 수 있습니다. 이는 다음을 의미합니다.

각 머리가 입력의 다른 부분에 집중하기 때문에 모델이 위치 정보를 더 잘 캡처할 수 있습니다. 이들의 조합은 더욱 강력한 표현을 제공합니다.

각 헤더는 고유하게 연관된 단어를 통해 다양한 문맥 정보도 캡처합니다.

Transformer 모델의 작동 메커니즘을 알았으니 이제 Vision Transformer 모델을 다시 살펴보겠습니다.

Vision Transformer는 2020년 10월 제안된 이미지 분류 작업에 Transformer를 적용한 모델입니다. 모델 아키텍처는 자연어 처리처럼 이미지를 입력으로 처리할 수 있는 원래 Transformer와 거의 동일합니다.

Vision Transformer 모델은 Transformer Encoder를 기본 모델로 사용하여 이미지에서 특징을 추출하고 이러한 처리된 특징을 분류를 위해 MLP(다층 퍼셉트론) 헤드 모델에 전달합니다. 기본 모델 Transformer의 계산 부하가 이미 매우 크기 때문에 Vision Transformer는 이러한 문제를 해결하기 위해 경량의 "윈도잉" 주의 메커니즘으로 이미지를 사각형 블록으로 분해합니다.

그런 다음 이미지는 정사각형 패치로 변환되어 평면화되고 단일 피드포워드 레이어를 통해 전송되어 선형 패치 투영을 얻습니다. 학습 가능한 클래스 임베딩을 다른 패치 프로젝션과 연결하여 비트 분류를 돕습니다.

요약하자면 이러한 패치 투영과 위치 임베딩은 곧 Transformer 인코더를 통과하게 될 더 큰 행렬을 형성합니다. 그런 다음 Transformer 인코더의 출력은 이미지 분류를 위해 다층 퍼셉트론으로 전송됩니다. 입력 기능은 이미지의 본질을 매우 잘 포착하므로 MLP 헤드의 분류 작업이 훨씬 간단해집니다.

ViT, ResNet, MobileNet의 성능 벤치마크 비교

ViT는 고품질 이미지 특징을 학습하는 데 뛰어난 잠재력을 보여주지만 성능과 정확도 향상이 좋지 않습니다. 정확도가 약간 향상되었다고 해서 ViT의 열악한 런타임이 정당화되는 것은 아닙니다.

Vision Transformer 모델 관련

  • 미세 조정된 코드와 사전 학습된 Vision Transformer 모델은 Google Research의 GitHub에서 확인할 수 있습니다.
  • Vision Transformer 모델은 ImageNet 및 ImageNet-21k 데이터 세트에서 사전 학습되었습니다.
  • Vision Transformer(ViT) 모델은 ICLR 2021에서 발표된 "An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale"이라는 컨퍼런스 연구 논문에서 소개되었습니다.

위 내용은 Vision Transformer(VIT) 모델의 작동 원리 및 특성에 대한 심층 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제