대형 모델의 볼륨, 잠을 자지 않고도 진행을 따라갈 수가 없어요...
아니요, 마이크로소프트 아시아 연구소에서 방금 멀티모달 대형 언어 모델(MLLM)을 출시했습니다 - KOSMOS -1.
논문 주소: https://arxiv.org/pdf/2302.14045.pdf
논문 제목 Language Is Not All You Need는 유명한 속담에서 따왔습니다.
기사에 "나의 언어의 한계는 나의 세계의 한계이다. - 오스트리아 철학자 루드비히 비트겐슈타인"이라는 문장이 있습니다.
그러면 질문이 옵니다.. . ...
사진을 찍고 KOSMOS-1에게 "오리인지 토끼인지 알아낼 수 있나요?"라고 물어보세요. 100년이 넘는 역사를 가진 이 밈으로는 Google AI를 고칠 수 없습니다.
1899년 미국 심리학자 Joseph Jastrow는 처음으로 "오리와 토끼 다이어그램"을 사용하여 인식이 사람들이 보는 것뿐만 아니라 정신 활동이기도 함을 보여주었습니다.
이제 KOSMOS-1은 이러한 인식 모델과 언어 모델을 결합할 수 있습니다.
-사진에는 무엇이 있나요?
-오리같아.
- 오리가 아니면 뭐죠?
-토끼에 더 가깝네요.
-왜요?
-토끼 귀가 있어요.
KOSMOS-1은 실제로 Microsoft의 ChatGPT 버전과 약간 비슷합니다.
Kosmos-1은 그뿐만 아니라 이미지, 텍스트, 텍스트가 포함된 이미지, OCR, 이미지 캡션, 시각적 QA도 이해할 수 있습니다.
IQ 테스트도 문제가 되지 않습니다.
코스모스는 "우주"를 의미하는 그리스어 코스모스에서 유래되었습니다.
논문에 따르면 최신 Kosmos-1 모델은 다중 모드 대규모 언어 모델입니다.
백본은 Transformer를 기반으로 한 인과 언어 모델로, 텍스트 외에도 비전, 오디오 등의 다른 양식을 모델에 내장할 수 있습니다.
Transformer 디코더는 다중 모드 입력을 위한 범용 인터페이스 역할을 하므로 일반 모드를 인식하고 상황 학습을 수행하며 지침을 따를 수 있습니다.
Kosmos-1은 텍스트 지침이 포함된 이미지 인식, 시각적 질문 응답, 다중 모드 대화를 포함하여 미세 조정 없이 언어 및 다중 모드 작업에서 인상적인 성능을 달성합니다.
다음은 Kosmos-1에서 생성된 스타일의 예입니다.
그림 해석, 그림 Q&A, 웹 페이지 질문 답변, 간단한 숫자 공식, 숫자 인식.
그렇다면 Kosmos-1은 어떤 데이터 세트에 사전 훈련되어 있나요?
텍스트 말뭉치, 이미지-자막 쌍, 이미지 및 텍스트 교차 데이터 세트를 포함하여 교육에 사용되는 데이터베이스입니다.
텍스트 자료는 The Pile and Common Crawl(CC)에서 가져왔습니다.
이미지 캡션 쌍의 소스는 영어 LAION-2B, LAION-400M, COYO-700M 및 개념 캡션입니다. ;
텍스트 교차 데이터세트의 소스는 Common Crawl 스냅샷입니다.
이제 데이터베이스를 사용할 수 있으므로 다음 단계는 모델을 사전 훈련하는 것입니다.
MLLM 구성 요소에는 24개의 레이어, 2,048개의 숨겨진 차원, 8,192개의 FFN 및 32개의 주의 헤드가 있어 약 13억 개의 매개 변수가 생성됩니다.
최적화의 안정성을 보장하기 위해 더 빠른 수렴을 위해 Magneto 초기화가 사용되며, 이미지 표현은 1024개 기능 차원을 갖춘 사전 훈련된 CLIP ViT-L/14 모델에서 얻습니다. 훈련 과정에서 이미지는 224×224 해상도로 전처리되며, CLIP 모델의 매개변수는 마지막 레이어를 제외하고 고정됩니다.
KOSMOS-1의 전체 매개변수 수는 약 16억 개입니다.
KOSMOS-1이 명령어와 더 잘 일치하도록 하기 위해 언어 전용 명령어 조정[LHV+23, HSLS22]이 이루어졌습니다. 즉, 명령어 데이터를 사용하여 모델을 계속 학습합니다. 그리고 명령 데이터는 일부 언어 데이터가 훈련 코퍼스와 혼합되어 있습니다.
언어 모델링 방법에 따라 튜닝 과정이 진행되며, 선택된 명령어 데이터 세트는 Unnatural Instructions [HSLS22] 및 FLANv2 [LHV+23]입니다.
결과는 명령 추종 능력의 향상이 모드 간에도 전달될 수 있음을 보여줍니다.
간단히 말하면, MLLM은 지식을 언어에서 다중 양식으로 또는 그 반대로 전환하여 이익을 얻을 수 있습니다.
모델인지 여부 잘 작동하는지 아닌지는 꺼내서 가지고 다니면서 판단할 수 있습니다.
연구팀은 KOSMOS-1의 성능을 평가하기 위해 5개 카테고리 10개 과제를 포함해 다각도에서 실험을 진행했다.
1 언어 과제(언어 이해, 언어 생성, OCR 없는 텍스트 분류) )
2 다중 모드 전달(상식 추론)
3 비언어적 추론(IQ 테스트)
4 지각-언어적 작업(이미지 설명, 시각적 질문 및 답변, 웹페이지 질문과 답변) )
5가지 비전 작업(제로샷 이미지 분류, 설명 포함 제로샷 이미지 분류)
OCR 없는 텍스트 분류
광학 문자에 의존하지 않는 방법입니다. 인식(OCR)은 텍스트 및 이미지 이해 작업에 중점을 둡니다.
HatefulMemes 및 Rendered SST-2 테스트 세트에서 KOSMOS-1의 정확도는 다른 모델보다 높습니다.
Flamingo는 명시적으로 OCR 텍스트를 프롬프트에 제공하지만 KOSMOS-1은 외부 도구나 리소스에 액세스할 수 없습니다. 이는 렌더링된 이미지의 텍스트를 읽고 이해하는 KOSMOS-1의 고유한 능력을 보여줍니다.
IQ 테스트
Raven 지능 테스트는 비언어적 평가에 가장 일반적으로 사용되는 테스트 중 하나입니다.
KOSMOS-1은 미세 조정을 하지 않은 무작위 선택에 비해 정확도가 5.3%, 미세 조정 후에는 9.3% 향상되어 비언어적 언어에서도 추상적 개념 패턴을 인식하는 능력이 있음을 나타냅니다. 환경.
모델이 제로샷 Raven 테스트를 완료할 수 있었던 것은 이번이 처음이며, 인식 모델과 언어 모델을 결합하여 제로샷 비언어적 추론을 위한 MLLM의 잠재력을 입증했습니다.
이미지 설명
KOSMOS-1은 COCO 및 Flickr30k 테스트 모두에서 우수한 제로 샘플 성능을 보이지만 매개 변수 수를 사용합니다. 더 작습니다.
소표본 성능 테스트에서는 k 값이 증가할수록 점수가 증가합니다.
제로샷 이미지 분류
입력 이미지가 주어지면 "The photo of the"라는 메시지와 함께 이미지를 연결합니다. 그런 다음 모델에 피드를 제공하여 이미지의 클래스 이름을 가져옵니다.
ImageNet [DDS+09]에서 모델을 평가한 결과, 제약 조건과 비제약 조건에서 KOSMOS-1의 이미지 분류 효과가 GIT [WYH+ 22]보다 훨씬 우수하여 강력한 성능을 보여줍니다. 시각적 작업을 완료하는 능력.
상식추론
시각적 상식 추론 작업에서는 모델이 실제 세계에 있는 일상적인 개체의 속성(예: 색상, 크기, 모양)을 이해해야 합니다. 이러한 작업에는 텍스트보다 개체 속성에 대한 더 많은 정보가 필요할 수 있기 때문에 어렵습니다.
결과에 따르면 KOSMOS-1의 추론 능력은 크기와 색상 모두에서 LLM 모델보다 훨씬 우수합니다. 이는 주로 KOSMOS-1이 LLM과 같은 추론을 위해 텍스트 지식과 단서에 의존하지 않고도 시각적 지식을 언어 작업에 적용할 수 있는 다중 모드 전송 기능을 갖추고 있기 때문입니다.
네티즌들은 앞으로 5년 안에 인터넷을 검색하고 시각적 수단을 통해서만 인간의 텍스트 입력을 기반으로 작업하는 고급 로봇을 볼 수 있다고 칭찬했습니다. 정말 흥미로운 시간이었습니다.
위 내용은 100년 된 밈도 분명해요! Microsoft의 다중 모드 "Universe"는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!