Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수-일체 포함-php.cn

집

기술 주변기기

일체 포함

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

PHPz

Apr 14, 2023 pm 06:28 PM

ai모델

NLP 분야에서 LLM(대형 언어 모델)은 다양한 자연어 작업에서 공통 인터페이스 역할을 성공적으로 수행했습니다. 입력과 출력을 텍스트로 변환할 수 있는 한 LLM 기반 인터페이스를 작업에 적용할 수 있습니다. 예를 들어 요약 작업은 문서를 가져와서 요약 정보를 출력합니다. 따라서 입력 문서를 요약 언어 모델에 공급하고 요약을 생성할 수 있습니다.

NLP 작업에 LLM을 성공적으로 적용했음에도 불구하고 연구자들은 여전히 이미지 및 오디오와 같은 다중 모드 데이터에 LLM을 기본적으로 사용하는 데 어려움을 겪고 있습니다. 지능의 기본 구성 요소인 다중 모드 인식은 지식 획득과 현실 세계 처리 모두에서 일반 인공 지능을 달성하는 데 필요한 조건입니다. 더 중요한 것은 다중 모드 입력을 잠금 해제하면 다중 모드 로봇 공학, 문서 지능 및 로봇 공학과 같은 더 높은 가치의 분야에서 언어 모델의 적용을 크게 확장할 수 있다는 것입니다.

따라서 Microsoft 팀은 "Language Is Not All You Need: Aligning Perception with Language Models" 논문에서 MLLM(Multimodal Large Language Model) - KOSMOS-1을 도입했습니다. 지침(예: 제로샷 학습) 및 상황에 따른 학습(예: 퓨샷 학습) . 연구 목표는 모델이 보고 말할 수 있도록 인식을 LLM과 일치시키는 것입니다. 연구원들은 METALM 방법에 따라 처음부터 KOSMOS-1을 훈련했습니다("언어 모델은 범용 인터페이스입니다" 논문 참조).

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

논문 주소: https://arxiv.org/pdf/2302.14045.pdf
프로젝트 주소: https://github.com/microsoft/unilm

아래 그림 1과 같이 연구원은 Transformer 기반 언어 모델을 일반 인터페이스로 사용하고 이를 인식 모듈과 연결합니다. 그들은 텍스트 데이터, 임의로 인터리브된 이미지와 텍스트, 이미지-캡션 쌍을 포함하는 웹 규모의 다중 모달 코퍼스에서 모델을 훈련했습니다. 또한 연구원들은 순수 언어 데이터를 전송하여 교차 모달 수업 추종 능력을 보정했습니다.

마지막으로 KOSMOS-1 모델은 아래 표 1과 같이 제로샷 및 퓨샷 학습 설정에서 언어, 지각 언어 및 시각적 작업을 기본적으로 지원합니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

연구원들은 아래 그림 2와 3에 생성된 몇 가지 예를 보여줍니다. KOSMOS-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 설명이 포함된 제로샷 이미지 분류. 또한 MLLM의 비언어적 추론 능력을 평가하기 위해 Raven의 RPM(진행 행렬)을 기반으로 IQ 테스트 벤치마크를 구축했습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

이러한 예는 다중 모드 인식에 대한 기본 지원이 LLM을 새로운 작업에 적용할 수 있는 새로운 기회를 열어준다는 것을 보여줍니다. 또한 LLM과 비교하여 MLLM은 더 나은 상식 추론 성능을 달성하며 이는 교차 모달 전송이 지식 획득을 용이하게 함을 나타냅니다.

KOSMOS-1 모델의 매개변수 수가 16억 개에 달하기 때문에 일부 네티즌들은 이 대형 멀티모달 모델을 자신의 컴퓨터에서 실행하고 싶다는 희망을 표현했습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

KOSMOS-1: 다중 모드 대규모 언어 모델

그림 1에서 볼 수 있듯이 KOSMOS-1은 일반적인 양식을 인식하고 지시를 따르며 상황에 따라 학습하고 출력을 생성할 수 있는 다중 모드 언어 모델입니다. 구체적으로 KOSMOS-1의 백본은 Transformer 기반의 인과언어모델이다. 텍스트 외에도 다른 양식도 임베딩되어 모델에 입력될 수 있습니다. 아래 그림에 표시된 것처럼 언어 외에도 비전, 음성 등의 임베딩도 있습니다. 변환기 디코더는 다중 모드 입력을 위한 일반 인터페이스 역할을 합니다. 모델이 훈련되면 KOSMOS-1은 제로 샷 및 소수 샷 설정에서 언어 작업 및 다중 모달 작업에 대해서도 평가할 수 있습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

Transformer 디코더는 통일된 방식으로 양식을 인식하고 입력 정보는 특수 토큰을 사용하여 시퀀스로 평면화됩니다. 예를 들어 는 시퀀스의 시작을 의미하고 는 시퀀스의 끝을 의미합니다. 특수 토큰 및 은 인코딩된 이미지 삽입의 시작과 끝을 나타냅니다. 임베딩 모듈은 텍스트 토큰 및 기타 입력 양식을 벡터 표현으로 인코딩합니다. 입력 토큰의 경우 연구에서는 조회 테이블을 사용하여 이를 임베딩에 매핑합니다. 연속 신호 형식(예: 이미지 및 오디오)의 경우 입력은 개별 코드로 표시될 수도 있습니다.

이후, 획득된 입력 시퀀스 임베딩이 Transformer 기반 디코더에 공급됩니다. 그런 다음 인과 모델은 자동 회귀 방식으로 시퀀스를 처리하여 다음 토큰을 생성합니다. 요약하면, MLLM 프레임워크는 입력이 벡터로 표현되는 한 다양한 데이터 유형을 유연하게 처리할 수 있습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

모델 훈련

첫 번째는 훈련 데이터 세트입니다. 데이터 세트에는 텍스트 말뭉치, 이미지-자막 쌍, 이미지 및 텍스트 교차 데이터 세트가 포함됩니다. 특히 텍스트 코퍼스에는 The Pile 및 Common Crawl(CC)이 포함되며, 이미지 캡션 쌍에는 영어 LAION-2B, LAION-400M, COYO-700M 및 개념 캡션이 포함됩니다. 이미지 및 텍스트 교차 다중 모드 데이터 세트는 Common Crawl에서 가져옵니다. 스냅샷 .

이제 데이터 세트가 있으므로 훈련 설정이 있습니다. MLLM 구성 요소에는 24개 레이어, 숨겨진 차원 2048개, FFN 8192개, 어텐션 헤드 32개, 매개변수 크기 1.3B가 포함되어 있습니다. 모델의 더 나은 수렴을 가능하게 하기 위해 이미지 표현은 1024개의 특징 차원으로 사전 훈련된 CLIP ViT-L/14 모델에서 얻어집니다. 훈련 중에는 이미지가 224×224 해상도로 전처리됩니다. 또한 마지막 레이어를 제외한 모든 CLIP 모델 매개변수는 훈련 중에 고정됩니다. KOSMOS-1의 전체 매개변수 수는 약 1.6B개입니다.

실험 결과

이 연구는 KOSMOS-1을 평가하기 위해 일련의 풍부한 실험을 수행했습니다. 언어 작업(언어 이해, 언어 생성, OCR 없는 텍스트 분류); 상식 추론), 비언어적 추론(IQ 테스트), 지각-언어적 작업(이미지 자막, 시각적 질문 및 답변, 웹 페이지 질문 및 답변), 시각적 작업(제로샷 이미지 분류, 설명 포함) ).

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

이미지 캡션.

다음 표는 COCO 및 Flickr30k에서 다양한 모델의 제로 샘플 성능을 보여줍니다. KOSMOS-1은 다른 모델에 비해 상당한 결과를 얻었으며, Flamingo에 비해 매개변수 수가 훨씬 적다는 점에서도 성능이 좋습니다.

다음 표는 몇 가지 샘플의 성능 비교를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

시각적 Q&A. KOSMOS-1은 Flamingo-3B 및 Flamingo-9B 모델보다 정확도와 견고성이 더 높습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

다음 표는 몇 가지 샘플 성능 비교를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

IQ 테스트. Raven's Reasoning Test는 비언어적 추론을 평가하는 데 사용되는 가장 일반적인 테스트 중 하나입니다. 그림 4는 예를 보여줍니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

표 6은 IQ 테스트 데이터 세트에 대한 평가 결과를 보여줍니다. KOSMOS-1은 비언어적 환경에서 추상적인 개념 패턴을 인식한 다음 다중 선택 항목 중에서 후속 요소를 추론할 수 있습니다. 우리가 아는 한, 모델이 이러한 제로 샘플 Raven IQ 테스트를 수행할 수 있는 것은 이번이 처음입니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

웹 Q&A. 웹 Q&A는 웹 페이지에서 질문에 대한 답변을 찾는 것을 목표로 합니다. 이를 위해서는 모델이 텍스트의 의미와 구조를 모두 이해해야 합니다. 결과는 다음과 같습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

다중 모드 사고 체인 프롬프트. 사고 사슬 프롬프트에서 영감을 받아 이 기사에서는 이와 관련된 실험을 수행했습니다. 그림 5에서 볼 수 있듯이 이 기사에서는 언어 인식 작업을 두 단계로 분해합니다. 첫 번째 단계의 이미지가 주어지면 단서는 모델이 최종 결과를 생성하기 위한 요구 사항을 충족하는 출력을 생성하도록 안내하는 데 사용됩니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

표 9에서 볼 수 있듯이 다중 모드 사고 체인 프롬프트의 점수는 72.9점으로 표준 프롬프트보다 5.8점 높습니다.

Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수

자세히 알아보기 실험에 대해서는 원본 논문을 참조하세요.

위 내용은 Microsoft 다중 모드 ChatGPT가 출시되나요? 사진 보기, 질문에 답하기, IQ 테스트 등과 같은 작업을 처리하기 위한 16억 개의 매개변수의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

7 강력한 AI 프롬프트 모든 프로젝트 관리자가 지금 마스터 해야하는 경우May 08, 2025 am 11:39 AM

Chatgpt와 같은 챗봇에서 예시 된 Generative AI는 프로젝트 관리자에게 워크 플로를 간소화하고 프로젝트가 일정과 예산 내에서 유지되도록 강력한 도구를 제공합니다. 그러나 올바른 프롬프트를 제작하는 데 효과적으로 사용됩니다. 정확하고 세부 사항

AI 자체의 도움이되는 도움을 통해 애매한 AGI의 잘못 정의 된 의미 정의May 08, 2025 am 11:37 AM

인공 일반 지능 (AGI)을 정의하는 과제는 중요합니다. AGI 진보에 대한 주장에는 종종 정의 된 연구 방향에 맞게 정의 된 정의와 함께 명확한 벤치 마크가 부족합니다. 이 기사는 정의에 대한 새로운 접근법을 탐구합니다

IBM은 2025 년이 생성 AI에서 Watsonx.data의 역할을 보여줍니다May 08, 2025 am 11:32 AM

IBM WATSONX.DATA : 엔터프라이즈 AI 데이터 스택을 간소화합니다 IBM은 Watsonx.data를 정확하고 확장 가능한 생성 AI 솔루션의 전달을 가속화하기위한 기업을위한 중추 플랫폼으로 위치합니다. 이것은 불만을 단순화하여 달성됩니다

휴머노이드 로봇 기계의 부상이 가까워지고 있습니다.May 08, 2025 am 11:29 AM

AI와 재료 과학의 혁신으로 인해 로봇 공학의 급속한 발전은 새로운 휴머노이드 로봇 시대를 안내 할 준비가되어 있습니다. 수년 동안 산업 자동화는 주요 초점 이었지만 로봇의 기능은 빠르게 exp입니다.

Netflix Revamps Interface-AI 검색 도구와 Tiktok와 같은 디자인 데뷔May 08, 2025 am 11:25 AM

10 년 만에 Netflix 인터페이스의 가장 큰 업데이트 : 더 똑똑하고 개인화 된 다양한 콘텐츠 수용 Netflix는 10 년 만에 사용자 인터페이스의 최대 개정을 발표했으며, 새로운 모습뿐만 아니라 각 쇼에 대한 더 많은 정보를 추가하고, "주변"및보다 유연한 구조와 같은 모호한 개념을 이해할 수있는 더 스마트 한 AI 검색 도구를 소개하여 비디오 게임, 라이브 이벤트, 스포츠 이벤트 및 기타 새로운 유형의 컨텐츠를 더 잘 보여줍니다. 트렌드를 따라 잡기 위해 모바일의 새로운 수직 비디오 구성 요소를 사용하면 팬이 트레일러와 클립을 쉽게 스크롤하거나 전체 쇼를 보거나 다른 사람들과 콘텐츠를 공유 할 수 있습니다. 이것은 무한한 스크롤과 매우 성공적인 짧은 비디오 웹 사이트 ti를 상기시킵니다.

AGI보다 오래 전에 : 당신에게 도전 할 3 개의 AI 이정표May 08, 2025 am 11:24 AM

인공 지능에서 일반 정보 (AGI)에 대한 논의가 커지면 인공 지능이 인간 지능을 능가 할 때 어떤 일이 발생하는지 생각해 보았습니다. 이 순간이 가까운지 또는 멀리 떨어져 있는지 여부는 당신이 물어 보는 사람에 달려 있지만, 그것이 우리가 집중해야 할 가장 중요한 이정표라고 생각하지 않습니다. 어떤 초기 AI 이정표가 모든 사람에게 영향을 미칩니 까? 어떤 이정표가 달성 되었습니까? 내가 생각한 세 가지가 있습니다. 인공 지능은 인간의 약점을 능가합니다 2022 년 영화 "Social Dilemma"에서 Humane Technology Center의 Tristan Harris는 인공 지능이 인간의 약점을 능가했다고 지적했다. 이것이 무엇을 의미합니까? 이것은 인공 지능이 인간을 사용할 수 있음을 의미합니다.