NLP 분야에서 LLM(대형 언어 모델)은 다양한 자연어 작업에서 공통 인터페이스 역할을 성공적으로 수행했습니다. 입력과 출력을 텍스트로 변환할 수 있는 한 LLM 기반 인터페이스를 작업에 적용할 수 있습니다. 예를 들어 요약 작업은 문서를 가져와서 요약 정보를 출력합니다. 따라서 입력 문서를 요약 언어 모델에 공급하고 요약을 생성할 수 있습니다.
NLP 작업에 LLM을 성공적으로 적용했음에도 불구하고 연구자들은 여전히 이미지 및 오디오와 같은 다중 모드 데이터에 LLM을 기본적으로 사용하는 데 어려움을 겪고 있습니다. 지능의 기본 구성 요소인 다중 모드 인식은 지식 획득과 현실 세계 처리 모두에서 일반 인공 지능을 달성하는 데 필요한 조건입니다. 더 중요한 것은 다중 모드 입력을 잠금 해제하면 다중 모드 로봇 공학, 문서 지능 및 로봇 공학과 같은 더 높은 가치의 분야에서 언어 모델의 적용을 크게 확장할 수 있다는 것입니다.
따라서 Microsoft 팀은 "Language Is Not All You Need: Aligning Perception with Language Models" 논문에서 MLLM(Multimodal Large Language Model) - KOSMOS-1을 도입했습니다. 지침(예: 제로샷 학습) 및 상황에 따른 학습(예: 퓨샷 학습) . 연구 목표는 모델이 보고 말할 수 있도록 인식을 LLM과 일치시키는 것입니다. 연구원들은 METALM 방법에 따라 처음부터 KOSMOS-1을 훈련했습니다("언어 모델은 범용 인터페이스입니다" 논문 참조).
아래 그림 1과 같이 연구원은 Transformer 기반 언어 모델을 일반 인터페이스로 사용하고 이를 인식 모듈과 연결합니다. 그들은 텍스트 데이터, 임의로 인터리브된 이미지와 텍스트, 이미지-캡션 쌍을 포함하는 웹 규모의 다중 모달 코퍼스에서 모델을 훈련했습니다. 또한 연구원들은 순수 언어 데이터를 전송하여 교차 모달 수업 추종 능력을 보정했습니다.
마지막으로 KOSMOS-1 모델은 아래 표 1과 같이 제로샷 및 퓨샷 학습 설정에서 언어, 지각 언어 및 시각적 작업을 기본적으로 지원합니다.
연구원들은 아래 그림 2와 3에 생성된 몇 가지 예를 보여줍니다. KOSMOS-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 설명이 포함된 제로샷 이미지 분류. 또한 MLLM의 비언어적 추론 능력을 평가하기 위해 Raven의 RPM(진행 행렬)을 기반으로 IQ 테스트 벤치마크를 구축했습니다.
이러한 예는 다중 모드 인식에 대한 기본 지원이 LLM을 새로운 작업에 적용할 수 있는 새로운 기회를 열어준다는 것을 보여줍니다. 또한 LLM과 비교하여 MLLM은 더 나은 상식 추론 성능을 달성하며 이는 교차 모달 전송이 지식 획득을 용이하게 함을 나타냅니다.
KOSMOS-1 모델의 매개변수 수가 16억 개에 달하기 때문에 일부 네티즌들은 이 대형 멀티모달 모델을 자신의 컴퓨터에서 실행하고 싶다는 희망을 표현했습니다.
그림 1에서 볼 수 있듯이 KOSMOS-1은 일반적인 양식을 인식하고 지시를 따르며 상황에 따라 학습하고 출력을 생성할 수 있는 다중 모드 언어 모델입니다. 구체적으로 KOSMOS-1의 백본은 Transformer 기반의 인과언어모델이다. 텍스트 외에도 다른 양식도 임베딩되어 모델에 입력될 수 있습니다. 아래 그림에 표시된 것처럼 언어 외에도 비전, 음성 등의 임베딩도 있습니다. 변환기 디코더는 다중 모드 입력을 위한 일반 인터페이스 역할을 합니다. 모델이 훈련되면 KOSMOS-1은 제로 샷 및 소수 샷 설정에서 언어 작업 및 다중 모달 작업에 대해서도 평가할 수 있습니다.
Transformer 디코더는 통일된 방식으로 양식을 인식하고 입력 정보는 특수 토큰을 사용하여 시퀀스로 평면화됩니다. 예를 들어 는 시퀀스의 시작을 의미하고 는 시퀀스의 끝을 의미합니다. 특수 토큰
이후, 획득된 입력 시퀀스 임베딩이 Transformer 기반 디코더에 공급됩니다. 그런 다음 인과 모델은 자동 회귀 방식으로 시퀀스를 처리하여 다음 토큰을 생성합니다. 요약하면, MLLM 프레임워크는 입력이 벡터로 표현되는 한 다양한 데이터 유형을 유연하게 처리할 수 있습니다. 모델 훈련
첫 번째는 훈련 데이터 세트입니다. 데이터 세트에는 텍스트 말뭉치, 이미지-자막 쌍, 이미지 및 텍스트 교차 데이터 세트가 포함됩니다. 특히 텍스트 코퍼스에는 The Pile 및 Common Crawl(CC)이 포함되며, 이미지 캡션 쌍에는 영어 LAION-2B, LAION-400M, COYO-700M 및 개념 캡션이 포함됩니다. 이미지 및 텍스트 교차 다중 모드 데이터 세트는 Common Crawl에서 가져옵니다. 스냅샷 .
이제 데이터 세트가 있으므로 훈련 설정이 있습니다. MLLM 구성 요소에는 24개 레이어, 숨겨진 차원 2048개, FFN 8192개, 어텐션 헤드 32개, 매개변수 크기 1.3B가 포함되어 있습니다. 모델의 더 나은 수렴을 가능하게 하기 위해 이미지 표현은 1024개의 특징 차원으로 사전 훈련된 CLIP ViT-L/14 모델에서 얻어집니다. 훈련 중에는 이미지가 224×224 해상도로 전처리됩니다. 또한 마지막 레이어를 제외한 모든 CLIP 모델 매개변수는 훈련 중에 고정됩니다. KOSMOS-1의 전체 매개변수 수는 약 1.6B개입니다.
실험 결과
이 연구는 KOSMOS-1을 평가하기 위해 일련의 풍부한 실험을 수행했습니다. 언어 작업(언어 이해, 언어 생성, OCR 없는 텍스트 분류); 상식 추론), 비언어적 추론(IQ 테스트), 지각-언어적 작업(이미지 자막, 시각적 질문 및 답변, 웹 페이지 질문 및 답변), 시각적 작업(제로샷 이미지 분류, 설명 포함) ).이미지 캡션.
다음 표는 COCO 및 Flickr30k에서 다양한 모델의 제로 샘플 성능을 보여줍니다. KOSMOS-1은 다른 모델에 비해 상당한 결과를 얻었으며, Flamingo에 비해 매개변수 수가 훨씬 적다는 점에서도 성능이 좋습니다.
다음 표는 몇 가지 샘플의 성능 비교를 보여줍니다.
시각적 Q&A. KOSMOS-1은 Flamingo-3B 및 Flamingo-9B 모델보다 정확도와 견고성이 더 높습니다.
다음 표는 몇 가지 샘플 성능 비교를 보여줍니다.
IQ 테스트. Raven's Reasoning Test는 비언어적 추론을 평가하는 데 사용되는 가장 일반적인 테스트 중 하나입니다. 그림 4는 예를 보여줍니다.
표 6은 IQ 테스트 데이터 세트에 대한 평가 결과를 보여줍니다. KOSMOS-1은 비언어적 환경에서 추상적인 개념 패턴을 인식한 다음 다중 선택 항목 중에서 후속 요소를 추론할 수 있습니다. 우리가 아는 한, 모델이 이러한 제로 샘플 Raven IQ 테스트를 수행할 수 있는 것은 이번이 처음입니다.
웹 Q&A. 웹 Q&A는 웹 페이지에서 질문에 대한 답변을 찾는 것을 목표로 합니다. 이를 위해서는 모델이 텍스트의 의미와 구조를 모두 이해해야 합니다. 결과는 다음과 같습니다.
다중 모드 사고 체인 프롬프트. 사고 사슬 프롬프트에서 영감을 받아 이 기사에서는 이와 관련된 실험을 수행했습니다. 그림 5에서 볼 수 있듯이 이 기사에서는 언어 인식 작업을 두 단계로 분해합니다. 첫 번째 단계의 이미지가 주어지면 단서는 모델이 최종 결과를 생성하기 위한 요구 사항을 충족하는 출력을 생성하도록 안내하는 데 사용됩니다.
표 9에서 볼 수 있듯이 다중 모드 사고 체인 프롬프트의 점수는 72.9점으로 표준 프롬프트보다 5.8점 높습니다.
자세히 알아보기 실험에 대해서는 원본 논문을 참조하세요.
위 내용은 Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!