>  기사  >  기술 주변기기  >  Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

王林
王林앞으로
2024-03-15 14:43:21586검색

올해부터 Apple은 생성 인공 지능(GenAI)에 대한 강조와 투자를 분명히 늘렸습니다. 최근 열린 Apple 주주총회에서 팀 쿡 Apple CEO는 올해 GenAI 분야에서 상당한 진전을 이룰 계획이라고 밝혔습니다. 또한, Apple은 10년 간의 자동차 제작 프로젝트를 포기한다고 발표했으며, 이로 인해 원래 자동차 제작에 참여했던 일부 팀원이 GenAI 분야로 눈을 돌리기 시작했습니다.

이러한 이니셔티브를 통해 Apple은 GenAI를 강화하겠다는 의지를 외부 세계에 보여주었습니다. 현재 멀티모달 분야의 GenAI 기술과 제품, 특히 OpenAI의 Sora가 많은 주목을 받고 있습니다. 애플은 당연히 이 분야에서 돌파구를 찾기를 희망하고 있다.

공동 저작 연구 논문 "MM1: 다중 모드 LLM 사전 훈련의 방법, 분석 및 통찰력"에서 Apple은 다중 모드 사전 훈련을 기반으로 한 연구 결과를 공개하고 최대 30B 매개변수 다중 모드 LLM 시리즈를 포함하는 라이브러리를 출시했습니다. 모델.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

논문 주소: https://arxiv.org/pdf/2403.09611.pdf

연구에서 팀은 다양한 아키텍처 구성 요소와 데이터 선택의 중요성에 대해 심층적인 토론을 진행했습니다. 이미지 인코더, 시각적 언어 커넥터 및 다양한 사전 학습 데이터를 신중하게 선택하여 몇 가지 중요한 설계 지침을 요약했습니다. 구체적으로 본 연구의 주요 기여는 다음과 같다.

먼저, 연구원들은 모델 아키텍처 결정 및 사전 훈련 데이터 선택에 대한 소규모 절제 실험을 수행하고 몇 가지 흥미로운 추세를 발견했습니다. 모델링 설계 측면의 중요성은 이미지 해상도, 시각적 인코더 손실 및 용량, 시각적 인코더 사전 훈련 데이터 순입니다.

두 번째로 연구원들은 이미지 캡션, 인터리브된 이미지 텍스트, 일반 텍스트 데이터라는 세 가지 유형의 사전 학습 데이터를 사용했습니다. 퓨샷 및 텍스트 전용 성능의 경우 인터리브 및 텍스트 전용 학습 데이터가 매우 중요하고, 제로샷 성능의 경우 자막 데이터가 가장 중요하다는 사실을 발견했습니다. 이러한 추세는 감독 미세 조정(SFT) 후에도 지속됩니다. 이는 사전 훈련 중에 제시된 성능 및 모델링 결정이 미세 조정 후에도 유지된다는 것을 나타냅니다.

마지막으로 연구원들은 밀도가 높은 모델과 혼합 전문가(MoE) 변형으로 구성된 최대 300억(다른 것은 30억, 70억)의 매개변수를 갖춘 다중 모드 모델 시리즈인 MM1을 구축했습니다. 사전 훈련 지표에서 SOTA를 달성하고, 일련의 기존 다중 모드 벤치마크에 대한 감독 미세 조정 후에도 경쟁력 있는 성능을 유지합니다.

사전 훈련된 모델 MM1은 몇 장의 시나리오에서 자막과 질문 및 답변 작업에서 탁월한 성능을 발휘하여 Emu2, Flamingo 및 IDEFICS보다 뛰어납니다. 감독된 미세 조정 후 MM1은 12개의 다중 모드 벤치마크에서도 강력한 경쟁력을 보여줍니다.

대규모 다중 모드 사전 훈련 덕분에 MM1은 상황 예측, 다중 이미지 및 사고 사슬 추론에서 좋은 성능을 발휘합니다. 마찬가지로 MM1은 명령어 조정 후 강력한 소수 학습 기능을 보여줍니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

방법 개요: MM1 구축의 비밀

고성능 MLLM(Multimodal Large Language Model, 다중 모드 대규모 언어 모델)을 구축하는 것은 매우 실용적인 작업입니다. 높은 수준의 아키텍처 설계 및 교육 프로세스는 명확하지만 구체적인 구현 방법이 항상 명확한 것은 아닙니다. 이 연구에서 연구원들은 고성능 모델을 구축하기 위해 수행된 절제에 대해 자세히 설명합니다. 그들은 세 가지 주요 설계 결정 방향을 탐색했습니다.

  • 아키텍처: 연구원들은 사전 훈련된 다양한 이미지 인코더를 살펴보고 LLM을 이러한 인코더와 연결하는 다양한 방법을 탐색했습니다.
  • 데이터: 연구원들은 다양한 유형의 데이터와 상대적인 혼합 가중치를 고려했습니다.
  • 훈련 절차: 연구원들은 하이퍼파라미터를 포함하여 MLLM을 훈련하는 방법과 모델의 어느 부분이 언제 훈련되었는지를 조사했습니다.

절제 설정

대규모 MLLM 교육에는 많은 리소스가 소비되므로 연구원들은 단순화된 절제 설정을 채택했습니다. 절제의 기본 구성은 다음과 같습니다.

  • 이미지 인코더: DFN-5B 및 VeCap-300M에서 CLIP 손실로 훈련된 ViT-L/14 모델 이미지 크기는 336×336입니다.
  • 시각적 언어 커넥터: C-Abstractor, 144개의 이미지 토큰 포함.
  • 사전 학습 데이터: 혼합 자막 이미지(45%), 인터리브된 이미지 텍스트 문서(45%) 및 일반 텍스트(10%) 데이터.
  • 언어 모델: 1.2B Transformer Decoder 언어 모델.

다양한 디자인 결정을 평가하기 위해 연구원들은 다양한 VQA 및 이미지 설명 작업(COCO Captioning, NoCaps, TextCaps, VQAv2, TextVQA, VizWiz, GQA)에서 제로샷 및 퓨샷(샘플 4개 및 8개) 성능을 사용했습니다. 그리고 OK-VQA.

모델 아키텍처 절제 실험

연구원들은 LLM이 시각적 데이터를 처리할 수 있게 하는 구성 요소를 분석했습니다. 특히 그들은 (1) 시각적 인코더를 최적으로 사전 훈련하는 방법과 (2) LLM 공간에 시각적 특징을 연결하는 방법을 연구했습니다(왼쪽 그림 3 참조).

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

  • 이미지 인코더 사전 훈련. 이 과정에서 연구자들은 주로 이미지 해상도와 이미지 인코더 사전 훈련 목표의 중요성을 제거했습니다. 다른 절제 실험과 달리 연구원들은 일부 대형 이미지 인코더를 사용할 수 있는 충분한 용량을 보장하기 위해 1.2B 대신 2.9B LLM을 사용했다는 점에 유의해야 합니다.
  • 인코더 경험: 이미지 해상도가 가장 큰 영향을 미치며, 모델 크기와 훈련 데이터 구성이 그 뒤를 따릅니다. 표 1에 표시된 것처럼 이미지 해상도를 224에서 336으로 높이면 모든 아키텍처의 모든 지표가 약 3% 향상됩니다. 모델 크기를 ViT-L에서 ViT-H로 늘리면 매개변수가 두 배가 되지만 성능 향상은 보통 1% 미만으로 미미합니다. 마지막으로 합성 캡션 데이터세트인 VeCap-300M을 추가하면 몇 장의 장면이 필요한 시나리오에서 성능이 1% 이상 향상됩니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

  • 시각적 언어 커넥터 및 이미지 해상도. 이 구성 요소의 목표는 시각적 표현을 LLM 공간으로 변환하는 것입니다. 이미지 인코더는 ViT이므로 ​​출력은 단일 임베딩이거나 입력 이미지 세그먼트에 해당하는 그리드 배열 임베딩 세트입니다. 따라서 이미지 토큰의 공간적 배열을 LLM의 순차적 배열로 변환해야 합니다. 동시에 실제 이미지 토큰 표현도 단어 임베딩 공간에 매핑되어야 합니다.
  • VL 커넥터 경험: 시각적 토큰 수와 이미지 해상도가 가장 중요하지만 VL 커넥터 유형은 거의 영향을 미치지 않습니다. 그림 4에서 볼 수 있듯이 시각적 토큰 수 및/또는 이미지 해상도가 증가함에 따라 제로 샘플 및 소수 샘플의 인식률이 증가합니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

사전 학습 데이터 절제 실험

일반적으로 모델 학습은 사전 학습과 명령어 튜닝의 두 단계로 나뉩니다. 전자 단계에서는 네트워크 규모의 데이터를 사용하고, 후자에서는 임무별로 선별된 데이터를 사용합니다. 다음은 이 기사의 사전 훈련 단계에 초점을 맞추고 연구원의 데이터 선택에 대해 자세히 설명합니다(그림 3 오른쪽).

MLLM을 훈련하는 데 일반적으로 사용되는 데이터에는 이미지와 텍스트 쌍 설명으로 구성된 캡션 데이터와 웹의 이미지-텍스트 인터리브 문서로 구성된 두 가지 유형이 있습니다. 표 2는 데이터 세트의 전체 목록입니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.


  • 데이터 경험 1: 인터리브된 데이터는 소수 샘플 및 일반 텍스트 성능을 향상시키는 데 도움이 되고, 자막 데이터는 제로 샘플 성능을 향상시킵니다. 그림 5a는 인터리빙된 데이터와 자막 데이터의 다양한 조합에 대한 결과를 보여줍니다.
  • 데이터 경험 2: 일반 텍스트 데이터는 소수 샘플 및 일반 텍스트 성능을 향상하는 데 도움이 됩니다. 그림 5b에서 볼 수 있듯이 일반 텍스트 데이터와 자막 데이터를 결합하면 Few-shot 성능이 향상됩니다.
  • 데이터 강의 3: 이미지와 텍스트 데이터를 조심스럽게 혼합하여 최고의 다중 모드 성능을 얻고 강력한 텍스트 성능을 유지하세요. 그림 5c는 이미지(제목 및 인터레이스)와 일반 텍스트 데이터 간의 여러 혼합 비율을 시도합니다.
  • 데이터 경험 4: 합성 데이터는 퓨샷 학습에 도움이 됩니다. 그림 5d에서 볼 수 있듯이 합성 데이터는 절댓값이 각각 2.4%와 4%로 소수 학습의 성능을 크게 향상시킵니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

최종 모델 및 훈련 방법

연구원들은 이전 절제 결과를 수집하고 MM1 다중 모달 사전 훈련을 위한 최종 방법을 결정했습니다.

  • 이미지 인코더: 이미지 해상도 고려 속도의 중요성으로 인해 연구원들은 378x378px 해상도의 ViT-H 모델을 사용하고 DFN-5B 사전 훈련을 위해 CLIP 타겟을 사용했습니다.
  • 시각적 언어 커넥터: 시각적 토큰의 수가 가장 중요한 것은 연구에서 저자가 144개의 토큰이 있는 VL 커넥터를 사용했다는 것입니다. 실제 아키텍처는 덜 중요한 것으로 보이며 연구원은 C-Abstract를 선택했습니다.
  • 데이터: 제로 샘플 및 소수 샘플의 성능을 유지하기 위해 연구원은 다음과 같이 신중하게 결합된 데이터를 사용했습니다. 45% 이미지 -텍스트 인터리브 문서, 45% 이미지-텍스트 문서 및 10% 일반 텍스트 문서.

모델의 성능을 향상시키기 위해 연구진은 LLM의 크기를 3B, 7B, 30B 매개변수로 확장했습니다. 모든 모델은 시퀀스 길이가 4096이고 시퀀스당 최대 16개의 이미지, 해상도가 378 × 378인 512개 시퀀스의 배치 크기로 완전히 동결되지 않은 사전 학습되었습니다. 모든 모델은 AXLearn 프레임워크를 사용하여 교육되었습니다.

그들은 더 작은 모델에서 더 큰 모델로의 변화를 추론하기 위해 로그 공간의 선형 회귀를 사용하여 소규모, 9M, 85M, 302M 및 1.2B의 학습률에 대한 그리드 검색을 수행했으며 결과는 예측입니다. (비임베디드) 매개변수 N의 수를 고려하여 최적의 최고 학습률 θ: MoE(Mix of Experts)에 의해 확장된

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

. 실험에서 연구원들은 언어 모델의 FFN 계층에 더 많은 전문가를 추가하여 밀집 모델을 확장하는 방법을 추가로 탐색했습니다.

Dense 모델을 MoE로 변환하려면 Dense 언어 디코더를 MoE 언어 디코더로 바꾸면 됩니다. MoE를 훈련하기 위해 연구원들은 훈련 데이터와 훈련 토큰을 포함하여 Dense Backbone 4와 동일한 훈련 하이퍼파라미터와 동일한 훈련 설정을 사용했습니다.

다중 모드 사전 훈련 결과와 관련하여 연구원들은 적절한 프롬프트를 통해 상한 및 VQA 작업에 대한 사전 훈련된 모델을 평가했습니다. 표 3은 제로 샘플 및 소수 샘플 결과를 평가합니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

감독된 미세 조정 결과

마지막으로 연구원들은 사전 훈련된 SFT(감독된 미세 조정) 실험을 도입했습니다. 모델.

그들은 LLaVA-1.5 및 LLaVA-NeXT를 따라 다양한 데이터 세트에서 약 100만 개의 SFT 샘플을 수집했습니다. 직관적으로 이미지 해상도가 높을수록 성능이 향상된다는 점을 고려하여 연구진은 고해상도로 확장된 SFT 방식도 채택했습니다.

Supervised Fine-tuning 결과는 다음과 같습니다.

Table 4는 SOTA와의 비교를 보여주며, "-Chat"은 Supervised Fine-tuning 후의 MM1 모델을 나타냅니다.

우선, 평균적으로 MM1-3B-Chat과 MM1-7B-Chat은 나열된 동일한 크기의 모든 모델보다 성능이 뛰어납니다. MM1-3B-Chat 및 MM1-7B-Chat은 VQAv2, TextVQA, ScienceQA, MMBench 및 최근 벤치마크(MMMU 및 MathVista)에서 특히 좋은 성능을 발휘합니다.

두 번째로 연구원들은 3B-MoE(전문가 64명)와 6B-MoE(전문가 32명)라는 두 가지 MoE 모델을 탐색했습니다. Apple의 MoE 모델은 거의 모든 벤치마크에서 Dense 모델보다 더 나은 성능을 달성했습니다. 이는 MoE의 추가 확장 가능성이 매우 크다는 것을 보여줍니다.

셋째, 30B 크기 모델의 경우 MM1-30B-Chat은 TextVQA, SEED 및 MMMU에서 Emu2-Chat37B 및 CogVLM-30B보다 성능이 좋습니다. MM1은 또한 LLaVA-NeXT에 비해 경쟁력 있는 전체 성능을 달성합니다.

그러나 LLaVA-NeXT는 다중 이미지 추론이나 소수 힌트를 지원하지 않습니다. 왜냐하면 각 이미지는 LLM으로 전송된 2880개의 토큰으로 표시되는 반면 MM1의 총 토큰 수는 720개에 불과하기 때문입니다. 이는 여러 이미지와 관련된 특정 응용 프로그램을 제한합니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

그림 7b는 입력 이미지 해상도가 SFT 평가 지표의 평균 성능에 미치는 영향을 보여주고, 그림 7c는 사전 훈련 데이터가 증가함에 따라 모델 성능이 계속 향상되는 것을 보여줍니다.

이미지 해상도의 영향. 그림 7b는 입력 이미지 해상도가 SFT 평가 지표의 평균 성능에 미치는 영향을 보여줍니다.

사전 학습의 영향: 그림 7c는 사전 학습 데이터가 증가함에 따라 모델 성능이 계속해서 향상되는 것을 보여줍니다.

Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제