찾다
기술 주변기기일체 포함100년 된 밈도 분명해요! Microsoft의 다중 모드 'Universe'는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

대형 모델의 볼륨, 잠을 자지 않고도 진행을 따라갈 수가 없어요...

아니요, 마이크로소프트 아시아 연구소에서 방금 멀티모달 대형 언어 모델(MLLM)을 출시했습니다 - KOSMOS -1.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

논문 주소: https://arxiv.org/pdf/2302.14045.pdf

논문 제목 Language Is Not All You Need는 유명한 속담에서 따왔습니다.

기사에 "나의 언어의 한계는 나의 세계의 한계이다. - 오스트리아 철학자 루드비히 비트겐슈타인"이라는 문장이 있습니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

그러면 질문이 옵니다.. . ...

사진을 찍고 KOSMOS-1에게 "오리인지 토끼인지 알아낼 수 있나요?"라고 물어보세요. 100년이 넘는 역사를 가진 이 밈으로는 Google AI를 고칠 수 없습니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

1899년 미국 심리학자 Joseph Jastrow는 처음으로 "오리와 토끼 다이어그램"을 사용하여 인식이 사람들이 보는 것뿐만 아니라 정신 활동이기도 함을 보여주었습니다.

이제 KOSMOS-1은 이러한 인식 모델과 언어 모델을 결합할 수 있습니다.

-사진에는 무엇이 있나요?

-오리같아.

- 오리가 아니면 뭐죠?

-토끼에 더 가깝네요.

-왜요?

-토끼 귀가 있어요.

KOSMOS-1은 실제로 Microsoft의 ChatGPT 버전과 약간 비슷합니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

Kosmos-1은 그뿐만 아니라 이미지, 텍스트, 텍스트가 포함된 이미지, OCR, 이미지 캡션, 시각적 QA도 이해할 수 있습니다.

IQ 테스트도 문제가 되지 않습니다.

"우주"는 전능하다

코스모스는 "우주"를 의미하는 그리스어 코스모스에서 유래되었습니다.

논문에 따르면 최신 Kosmos-1 모델은 다중 모드 대규모 언어 모델입니다.

백본은 Transformer를 기반으로 한 인과 언어 모델로, 텍스트 외에도 비전, 오디오 등의 다른 양식을 모델에 내장할 수 있습니다.

Transformer 디코더는 다중 모드 입력을 위한 범용 인터페이스 역할을 하므로 일반 모드를 인식하고 상황 학습을 수행하며 지침을 따를 수 있습니다.

Kosmos-1은 텍스트 지침이 포함된 이미지 인식, 시각적 질문 응답, 다중 모드 대화를 포함하여 미세 조정 없이 언어 및 다중 모드 작업에서 인상적인 성능을 달성합니다.

다음은 Kosmos-1에서 생성된 스타일의 예입니다.

그림 해석, 그림 Q&A, 웹 페이지 질문 답변, 간단한 숫자 공식, 숫자 인식.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

그렇다면 Kosmos-1은 어떤 데이터 세트에 사전 훈련되어 있나요?

텍스트 말뭉치, 이미지-자막 쌍, 이미지 및 텍스트 교차 데이터 세트를 포함하여 교육에 사용되는 데이터베이스입니다.

텍스트 자료는 The Pile and Common Crawl(CC)에서 가져왔습니다.

이미지 캡션 쌍의 소스는 영어 LAION-2B, LAION-400M, COYO-700M 및 개념 캡션입니다. ;

텍스트 교차 데이터세트의 소스는 Common Crawl 스냅샷입니다.

이제 데이터베이스를 사용할 수 있으므로 다음 단계는 모델을 사전 훈련하는 것입니다.

MLLM 구성 요소에는 24개의 레이어, 2,048개의 숨겨진 차원, 8,192개의 FFN 및 32개의 주의 헤드가 있어 약 13억 개의 매개 변수가 생성됩니다.

최적화의 안정성을 보장하기 위해 더 빠른 수렴을 위해 Magneto 초기화가 사용되며, 이미지 표현은 1024개 기능 차원을 갖춘 사전 훈련된 CLIP ViT-L/14 모델에서 얻습니다. 훈련 과정에서 이미지는 224×224 해상도로 전처리되며, CLIP 모델의 매개변수는 마지막 레이어를 제외하고 고정됩니다.

KOSMOS-1의 전체 매개변수 수는 약 16억 개입니다.

KOSMOS-1이 명령어와 더 잘 일치하도록 하기 위해 언어 전용 명령어 조정[LHV+23, HSLS22]이 이루어졌습니다. 즉, 명령어 데이터를 사용하여 모델을 계속 학습합니다. 그리고 명령 데이터는 일부 언어 데이터가 훈련 코퍼스와 혼합되어 있습니다.

언어 모델링 방법에 따라 튜닝 과정이 진행되며, 선택된 명령어 데이터 세트는 Unnatural Instructions [HSLS22] 및 FLANv2 [LHV+23]입니다.

결과는 명령 추종 능력의 향상이 모드 간에도 전달될 수 있음을 보여줍니다.

간단히 말하면, MLLM은 지식을 언어에서 다중 양식으로 또는 그 반대로 전환하여 이익을 얻을 수 있습니다.

5개의 주요 범주와 10개의 작업을 모두 마스터했습니다.

모델인지 여부 잘 작동하는지 아닌지는 꺼내서 가지고 다니면서 판단할 수 있습니다.

연구팀은 KOSMOS-1의 성능을 평가하기 위해 5개 카테고리 10개 과제를 포함해 다각도에서 실험을 진행했다.

1 언어 과제(언어 이해, 언어 생성, OCR 없는 텍스트 분류) )

2 다중 모드 전달(상식 추론)

3 비언어적 추론(IQ 테스트)

4 지각-언어적 작업(이미지 설명, 시각적 질문 및 답변, 웹페이지 질문과 답변) )

5가지 비전 작업(제로샷 이미지 분류, 설명 포함 제로샷 이미지 분류)

OCR 없는 텍스트 분류

광학 문자에 의존하지 않는 방법입니다. 인식(OCR)은 텍스트 및 이미지 이해 작업에 중점을 둡니다.

HatefulMemes 및 Rendered SST-2 테스트 세트에서 KOSMOS-1의 정확도는 다른 모델보다 높습니다.

Flamingo는 명시적으로 OCR 텍스트를 프롬프트에 제공하지만 KOSMOS-1은 외부 도구나 리소스에 액세스할 수 없습니다. 이는 렌더링된 이미지의 텍스트를 읽고 이해하는 KOSMOS-1의 고유한 능력을 보여줍니다.

IQ 테스트

Raven 지능 테스트는 비언어적 평가에 가장 일반적으로 사용되는 테스트 중 하나입니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

KOSMOS-1은 미세 조정을 하지 않은 무작위 선택에 비해 정확도가 5.3%, 미세 조정 후에는 9.3% 향상되어 비언어적 언어에서도 추상적 개념 패턴을 인식하는 능력이 있음을 나타냅니다. 환경.

모델이 제로샷 Raven 테스트를 완료할 수 있었던 것은 이번이 처음이며, 인식 모델과 언어 모델을 결합하여 제로샷 비언어적 추론을 위한 MLLM의 잠재력을 입증했습니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

이미지 설명

KOSMOS-1은 COCO 및 Flickr30k 테스트 모두에서 우수한 제로 샘플 성능을 보이지만 매개 변수 수를 사용합니다. 더 작습니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

소표본 성능 테스트에서는 k 값이 증가할수록 점수가 증가합니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

제로샷 이미지 분류

입력 이미지가 주어지면 "The photo of the"라는 메시지와 함께 이미지를 연결합니다. 그런 다음 모델에 피드를 제공하여 이미지의 클래스 이름을 가져옵니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

ImageNet [DDS+09]에서 모델을 평가한 결과, 제약 조건과 비제약 조건에서 KOSMOS-1의 이미지 분류 효과가 GIT [WYH+ 22]보다 훨씬 우수하여 강력한 성능을 보여줍니다. 시각적 작업을 완료하는 능력.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

상식추론

시각적 상식 추론 작업에서는 모델이 실제 세계에 있는 일상적인 개체의 속성(예: 색상, 크기, 모양)을 이해해야 합니다. 이러한 작업에는 텍스트보다 개체 속성에 대한 더 많은 정보가 필요할 수 있기 때문에 어렵습니다.

결과에 따르면 KOSMOS-1의 추론 능력은 크기와 색상 모두에서 LLM 모델보다 훨씬 우수합니다. 이는 주로 KOSMOS-1이 LLM과 같은 추론을 위해 텍스트 지식과 단서에 의존하지 않고도 시각적 지식을 언어 작업에 적용할 수 있는 다중 모드 전송 기능을 갖추고 있기 때문입니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.


네티즌들은 앞으로 5년 안에 인터넷을 검색하고 시각적 수단을 통해서만 인간의 텍스트 입력을 기반으로 작업하는 고급 로봇을 볼 수 있다고 칭찬했습니다. 정말 흥미로운 시간이었습니다.

100년 된 밈도 분명해요! Microsoft의 다중 모드 Universe는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.

위 내용은 100년 된 밈도 분명해요! Microsoft의 다중 모드 'Universe'는 단 16억 개의 매개변수만으로 IQ 테스트를 처리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
10 GPT-4O 이미지 생성 프롬프트 오늘 시험해보십시오!10 GPT-4O 이미지 생성 프롬프트 오늘 시험해보십시오!Apr 24, 2025 am 10:26 AM

AI의 세계에서 절대적으로 거친 물건이 일어나고 있습니다. Openai의 기본 이미지 생성은 지금 미쳤다. 우리는 턱을 떨어 뜨리는 비주얼, 무서운 좋은 디테일 및 출력을 말하고 있습니다.

Windsurf와의 분위기 코딩 안내서Windsurf와의 분위기 코딩 안내서Apr 24, 2025 am 10:25 AM

Codeium 's Windsurf, AI 구동 코딩 동반자로 코딩 비전을 쉽게 가져 오십시오. Windsurf는 코딩 및 디버깅에서 최적화에 이르기까지 전체 소프트웨어 개발 수명주기를 간소화하여 프로세스를 Intu로 변환합니다.

RMGB v2.0을 사용하여 이미지 배경 제거 탐색RMGB v2.0을 사용하여 이미지 배경 제거 탐색Apr 24, 2025 am 10:20 AM

Braiai의 RMGB v2.0 : 강력한 오픈 소스 배경 제거 모델 이미지 세분화 모델은 다양한 필드에 혁명을 일으키고 있으며 배경 제거의 주요 영역입니다. Braiai의 RMGB v2.0

큰 언어 모델의 독성 평가큰 언어 모델의 독성 평가Apr 24, 2025 am 10:14 AM

이 기사는 대형 언어 모델 (LLM)에서 독성의 중요한 문제와이를 평가하고 완화하는 데 사용되는 방법을 탐구합니다. LLMS, 챗봇에서 콘텐츠 생성에 이르기까지 다양한 응용 프로그램을 구동하며 강력한 평가 지표, 재치가 필요합니다.

헝겊에 대한 재 랭커에 대한 포괄적 인 가이드헝겊에 대한 재 랭커에 대한 포괄적 인 가이드Apr 24, 2025 am 10:10 AM

검색 증강 생성 (RAG) 시스템은 정보 액세스를 변화시키고 있지만 그 효과는 검색된 데이터의 품질에 달려 있습니다. 이곳은 재창조자가 중요 해지는 곳입니다. 검색 결과를위한 품질 필터 역할을하여

Gemma 3 & docling으로 멀티 모달 헝겊을 만드는 방법?Gemma 3 & docling으로 멀티 모달 헝겊을 만드는 방법?Apr 24, 2025 am 10:04 AM

이 튜토리얼은 Google Colab 내에서 정교한 멀티 모달 검색 세대 생성 (RAG) 파이프 라인을 구축함으로써 안내합니다. 우리는 Gemma 3 (언어 및 비전), docling (문서 변환), Langchain과 같은 최첨단 도구를 사용합니다.

확장 가능한 AI 및 기계 학습 응용 프로그램을위한 Ray 안내서확장 가능한 AI 및 기계 학습 응용 프로그램을위한 Ray 안내서Apr 24, 2025 am 10:01 AM

Ray : AI 및 Python 응용 프로그램 스케일링을위한 강력한 프레임 워크 Ray는 AI 및 Python 응용 프로그램을 쉽게 확장하도록 설계된 혁신적인 오픈 소스 프레임 워크입니다. 직관적 인 API는 연구원과 개발자가 코드를 이용할 수 있도록합니다.

건물 에이전트에 OpenAI MCP 통합을 사용하는 방법은 무엇입니까?건물 에이전트에 OpenAI MCP 통합을 사용하는 방법은 무엇입니까?Apr 24, 2025 am 09:58 AM

OpenAi는 다양한 데이터 시스템과의 AI 보조 통합을 단순화하는 오픈 소스 표준 단순화 인 Anthropic의 MCP (Model Context Protocol)를 지원함으로써 상호 운용성을 수용합니다. 이 협업은 AI 애플리케이션에 대한 통합 프레임 워크를 EFF로 향상시킵니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.