자연어 처리와 유사하게 사전 훈련된 시각적 백본을 전송하면 다양한 시각적 작업에서 모델 성능이 향상됩니다. 더 큰 데이터 세트, 확장 가능한 아키텍처 및 새로운 훈련 방법으로 인해 모델 성능이 모두 향상되었습니다.
그러나 시각적 모델은 여전히 언어 모델에 비해 훨씬 뒤떨어져 있습니다. 특히 현재까지 가장 큰 비전 모델인 ViT에는 4B 매개변수만 있는 반면, 보급형 언어 모델은 매개변수가 540B인 대규모 언어 모델은 물론이고 종종 10B 매개변수를 초과합니다.
AI 모델의 성능 한계를 탐색하기 위해 Google Research는 최근 CV 분야에 대한 연구를 진행하여 Vision Transformer 매개변수 크기를 22B로 확장하는 데 앞장섰고, 이전 유사 제품과 비교하여 ViT-22B를 제안했습니다. 모델 매개변수 크기는 4B로 현재까지의 Dense ViT 모델 중 가장 크다고 합니다.
문서 주소: https://arxiv.org/pdf/2302.05442.pdf
이전 최대 ViT-G와 ViT-e를 비교하면 표 1에 비교 결과가 나와 있습니다. 아래 표에서 볼 수 있듯이 ViT-22B는 주로 모델의 너비를 확장하여 매개변수 수를 더 크게 만들고 깊이는 ViT-G와 동일합니다.
현재 ViT 대형 모델
이 Zhihu 네티즌이 말했듯이 Google이 ChatGPT에서 패하고 CV 분야에서 경쟁하게 되었기 때문입니까?
어떻게 하나요? 연구 초기 단계에서 그들은 ViT 확장 과정에서 훈련 불안정이 발생하고 아키텍처 변화로 이어질 수 있다는 사실을 발견했습니다. 그런 다음 연구원들은 모델을 신중하게 설계하고 전례 없는 효율성으로 동시에 훈련했습니다. ViT-22B의 품질은 (몇 샷) 분류부터 현재 SOTA 수준을 충족하거나 초과하는 밀도 높은 출력 작업에 이르기까지 포괄적인 작업 세트를 통해 평가되었습니다. 예를 들어 ViT-22B는 고정된 시각적 특징 추출기로 사용되는 경우에도 ImageNet에서 89.5%의 정확도를 달성했습니다. 이러한 시각적 특징과 일치하도록 텍스트 타워를 훈련함으로써 ImageNet에서 85.9%의 제로 샷 정확도를 달성합니다. 또한 이 모델은 교사로 간주되어 증류 대상으로 사용될 수 있습니다. 연구원들은 ViT-B 학생 모델을 훈련하고 ImageNet에서 88.6%의 정확도를 달성하여 이 규모의 모델에 대한 SOTA 수준에 도달했습니다.
ViT-22B는 원래 Vision Transformer 아키텍처와 유사한 Transformer 기반 인코더 모델이지만 대규모 훈련의 효율성과 안정성을 향상시키기 위해 다음과 같은 세 가지 주요 수정 사항을 포함합니다: 병렬 레이어, 쿼리/키 (QK) 정규화 및 생략된 편향.
병렬 레이어. Wang과 Komatsuzaki 연구에서 언급했듯이 이 연구에서는 Attention 및 MLP 병렬 구조를 설계했습니다.
이는 MLP와 Attention 블록의 선형 투영을 결합하여 추가적인 병렬화를 달성할 수 있습니다. 특히, 쿼리/키/값 투영을 위한 행렬 곱셈과 MLP의 첫 번째 선형 레이어는 주의 이탈 투영 및 MLP의 두 번째 선형 레이어의 경우와 마찬가지로 단일 작업으로 융합됩니다.
QK 정규화. 대규모 모델을 훈련할 때 어려운 점 중 하나는 모델의 안정성입니다. ViT를 확장하는 과정에서 연구자들은 수천 단계를 거치면서 훈련 손실이 갈라지는 것을 발견했습니다. 이러한 현상은 8B 매개변수 모델에서 특히 두드러집니다. 모델 훈련을 안정화하기 위해 연구원들은 내적 주의 계산 전에 쿼리와 키에 LayerNorm 정규화 작업을 적용하여 훈련 안정성을 향상시키는 방법을 채택했습니다. 구체적으로 어텐션 가중치는 다음과 같이 계산됩니다.
편향이 생략되었습니다. PaLM 이후 QKV 투영에서 바이어스 항이 제거되고 모든 레이어 규범이 바이어스 없이 적용되어 품질 저하 없이 가속기 활용률(3%)이 향상됩니다. 그러나 PaLM과 달리 연구진은 MLP 밀집층에 바이어스 항을 사용했으며, 그럼에도 불구하고 이 접근 방식은 품질을 고려하면서 속도를 저하시키지 않았습니다.
그림 2는 ViT-22B 인코더 블록을 보여줍니다. 임베딩 레이어는 원본 ViT를 기반으로 패치 추출, 선형 투영, 추가 위치 임베딩 등의 작업을 수행합니다. 연구원들은 멀티 헤드 어텐션 풀링을 사용하여 헤드의 각 토큰 표현을 집계했습니다.
ViT-22B는 14×14 패치를 사용하고 이미지 해상도는 224×224이다. ViT-22B는 학습된 1차원 위치 임베딩을 사용합니다. 고해상도 이미지를 미세 조정하는 동안 연구원들은 사전 훈련된 위치 임베딩이 원본 이미지의 위치를 기반으로 2차원 보간을 수행했습니다.
ViT-22B는 JAX로 구현되고 Scenic에 내장된 FLAX 라이브러리를 사용합니다. 모델과 데이터 병렬성을 모두 활용합니다. 특히, 연구원들은 칩 간 통신뿐만 아니라 모든 중간체(예: 가중치 및 활성화)의 샤딩에 대한 명시적인 제어를 제공하는 jax.xmap API를 사용했습니다. 연구원들은 칩을 t × k 크기의 2D 논리 그리드로 구성했습니다. 여기서 t는 데이터 평행 축의 크기이고 k는 모델 축의 크기입니다. 그런 다음 t개 그룹 각각에 대해 k 장치는 동일한 이미지 배치를 획득하며, 각 장치는 1/k 활성화만 유지하고 모든 선형 레이어 출력의 1/k를 계산합니다(자세한 내용은 아래 참조).
그림 3: 비동기 병렬 선형 연산(y = Ax): 장치 간 통신 및 계산이 겹치는 모델 병렬 행렬 곱셈.
비동기 병렬 선형 연산. 처리량을 최대화하려면 계산과 통신을 고려해야 합니다. 즉, 이러한 작업이 샤딩되지 않은 경우와 분석적으로 동일하도록 하려면 가능한 한 적게 통신해야 하며 이상적으로는 행렬 곱셈 단위(FLOP 용량의 대부분이 상주하는 곳)를 보존할 수 있도록 겹치게 해야 합니다. 항상 바빠요.
매개변수 샤딩. 모델은 첫 번째 축에서 데이터가 평행합니다. 각 매개변수는 이 축에서 완전히 복제될 수 있으며, 각 장치는 그 일부와 함께 저장될 수 있습니다. 연구원들은 더 큰 모델과 배치 크기에 맞도록 모델 매개변수에서 일부 대형 텐서를 분할하기로 결정했습니다.
이러한 기술을 사용하여 ViT-22B는 TPUv4에서 교육하는 동안 코어당 초당 1.15,000개의 토큰을 처리합니다. ViT-22B의 모델 플롭 활용도(MFU)는 54.9%로 하드웨어를 매우 효율적으로 사용하고 있음을 나타냅니다. PaLM은 46.2%의 MFU를 보고한 반면 연구원들은 동일한 하드웨어에서 ViT-e(데이터 병렬 처리만 해당)에 대해 44.0%의 MFU를 측정했습니다.
실험에서는 ViT-22B의 이미지 분류 평가 결과를 탐색했습니다.
표 2 결과는 ViT-22B가 다양한 지표에서 여전히 상당한 개선을 보이고 있음을 보여줍니다. 또한 연구에 따르면 ViT-22B와 같은 대형 모델의 선형 프로빙은 고해상도의 소형 모델의 전체 미세 조정 성능에 근접하거나 초과할 수 있으며 이는 종종 더 저렴하고 수행하기 쉽습니다.
이 연구에서는 ViT-22B를 다른 ViT 변종과 비교하여 세분화된 분류 데이터세트 iNaturalist 2017에서 선형 분리성을 추가로 테스트했습니다. 이 연구에서는 224px 및 384px의 입력 해상도를 테스트했습니다. 결과는 그림 4에 나와 있습니다. 연구에 따르면 ViT-22B는 특히 표준 224px 입력 해상도에서 다른 ViT 변종보다 성능이 훨씬 뛰어난 것으로 나타났습니다. 이는 ViT-22B의 많은 수의 매개변수가 이미지에서 자세한 정보를 추출하는 데 유용하다는 것을 보여줍니다.
표 3은 CLIP, ALIGN, BASIC, CoCa 및 LiT 모델에 대한 ViT-22B의 제로 샘플 마이그레이션 결과를 보여줍니다. 표 3의 하단에서는 세 가지 ViT 모델 성능을 비교합니다.
ViT-22B는 모든 ImageNet 테스트 세트에서 유사하거나 더 나은 결과를 달성합니다. 특히 ObjectNet 테스트 세트의 제로샷 결과는 ViT 모델 크기와 높은 상관관계가 있습니다. 가장 큰 ViT-22B는 까다로운 ObjectNet 테스트 세트에 새로운 최첨단 기술을 제시합니다.
배포 중단(OOD). 이 연구는 JFT에서 ImageNet으로의 레이블 매핑과 ImageNet에서 배포되지 않은 다양한 데이터 세트, 즉 ObjectNet, ImageNet-v2, ImageNet-R 및 ImageNet-A로의 레이블 매핑을 구성합니다.
지금까지 확인할 수 있는 결과는 ImageNet의 개선에 맞춰 확장 모델이 out-of-distribution 성능을 향상시킨다는 것입니다. 이는 JFT 이미지만 본 모델뿐만 아니라 ImageNet에서 미세 조정된 모델에도 적용됩니다. 두 경우 모두 ViT-22B는 더 큰 모델에서 더 나은 OOD 성능 추세를 이어갑니다(그림 5, 표 11).
또한 연구원들은 의미론적 분할 및 단안 깊이 추정 작업에서 ViT-22B 모델이 캡처한 기하학적 및 공간 정보의 품질을 연구했습니다.
의미론적 분할. 연구원들은 ADE20K, Pascal Context 및 Pascal VOC의 세 가지 벤치마크에서 ViT-22B를 의미론적 분할 백본으로 평가했습니다. 표 4에서 볼 수 있듯이 ViT-22B 백본 마이그레이션은 분할 마스크가 몇 개만 표시될 때 더 잘 작동합니다.
단안 깊이 추정. 표 5는 연구의 주요 결과를 요약한 것입니다. 맨 위 행(DPT 디코더)에서 볼 수 있듯이 ViT-22B 기능을 사용하면 다른 백본에 비해 모든 지표에서 최고의 성능을 얻을 수 있습니다. ViT-22B 백본을 더 작은 모델이지만 ViT-22B와 동일한 데이터로 훈련된 ViT-e와 비교함으로써 아키텍처를 확장하면 성능이 향상된다는 사실을 발견했습니다.
또한 ViT-e 백본을 ViT-L(ViT-e와 유사한 아키텍처이지만 더 적은 데이터로 훈련됨)과 비교한 결과, 이러한 개선 사항은 사전 훈련 데이터 확장에서도 비롯된 것으로 나타났습니다. 이러한 결과는 더 큰 모델과 더 큰 데이터 세트가 모두 성능 향상에 도움이 된다는 것을 시사합니다.
이 연구는 비디오 데이터 세트에서도 탐색되었습니다. 표 6은 Kinetics 400 및 Moments in Time 데이터세트에 대한 비디오 분류 결과를 보여주며, 고정된 백본을 사용하여 경쟁력 있는 결과를 얻을 수 있음을 보여줍니다. 이 연구는 먼저 40억 개의 매개변수로 구성된 최대 규모의 이전 시각적 백본 모델을 보유하고 JFT 데이터세트에서도 훈련된 ViT-e와 비교합니다. 더 큰 ViT-22B 모델의 경우 Kinetics 400에서 1.5포인트, Moments in Time에서 1.3포인트의 개선이 관찰되었습니다.
최종 연구에서는 완전한 엔드 투 엔드 미세 조정을 통해 추가 개선의 여지가 있다고 지적했습니다.
자세한 기술적인 내용은 원본 문서를 참조하세요.
위 내용은 Google은 시각적 전송 모델 매개변수를 220억 개로 확장했으며 ChatGPT가 인기를 얻은 이후 연구자들은 공동 조치를 취했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!