>  기사  >  기술 주변기기  >  다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

王林
王林앞으로
2023-09-25 16:49:06693검색

멀티모달 대형 모델에 대한 가장 종합적인 리뷰가 여기에 있습니다!

Microsoft의

7명의 중국 연구원이 저술, 119페이지 ——

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

현재 완성된 아직 선두에 있습니다두 가지 유형의 멀티모달 대형 모델 연구 방향에서 시작됩니다. 처음에는 다섯 가지 구체적인 연구 주제를 종합적으로 요약합니다.

    시각적 이해
  • 시각적 생성
  • 통합 비전 모델
  • LLM 기반 멀티 모달 대형 모델
  • 멀티 모달 에이전트

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

에 집중하세요. 우리는 다음과 같은 현상을 발견했습니다.

다중 모드 기본 모델이 전문화 모델에서

범용 모델로 이동했습니다.

Ps. 작가가 논문 시작 부분에 직접

도라에몽 이미지를 그린 이유도 바로 여기에 있습니다.

이 리뷰를 읽는 데 적합한 사람은 누구입니까

(신고)?

Microsoft의 원래 말:

전문 연구원이든 학생이든 다중 모달 기본 모델의 기본 지식과 최신 진행 상황을 배우는 데 관심이 있다면 이 콘텐츠는 매우 적합합니다.

한번 살펴보세요~

멀티모달 대형모델 현황을 알 수 있는 기사

5가지 특정 주제 중 처음 2개는 현재 성숙한 분야이고, 마지막 3개는 최첨단 분야

1 . 시각적 이해

이 부분의 핵심 문제는 강력한 이미지 이해 백본을 어떻게 사전 훈련시키는가입니다.

아래 그림과 같이 모델 학습에 사용되는 다양한 감독 신호에 따라 방법을

라벨 감독, 언어 감독
(CLIP으로 표시) 및 이미지 전용 자체 감독의 세 가지 범주로 나눌 수 있습니다. .

마지막은 감독 신호가 이미지 자체에서 채굴된다는 것을 나타냅니다. 인기 있는 방법에는 대조 학습, 비대비 학습 및 마스크된 이미지 모델링이 있습니다.

이러한 방법 외에도 기사에서는 다중 모달 융합, 영역 수준 및 픽셀 수준 이미지 이해와 같은 범주에서 사전 학습 방법에 대해 자세히 설명합니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

위의 각 방법의 대표적인 작품은 다음과 같습니다. 또한 나열됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

2. 시각적 생성

이 주제는 AIGC의 핵심이며 이미지 생성에만 국한되지 않고 비디오, 3D 포인트 클라우드 등도 포함됩니다.

그리고 그 유용성은 예술, 디자인 및 기타 분야에만 국한되지 않습니다. 교육 데이터를 합성하는 데에도 매우 도움이 되며 다중 모드 콘텐츠 이해 및 생성의 폐쇄 루프를 달성하는 데 직접적으로 도움이 됩니다.

이 부분에서 저자는 인간의 의도

(이미지 생성 강조)와 엄격하게 일치하는 효과를 생성하는 중요성과 방법에 중점을 둡니다.

구체적으로 공간 제어 가능한 생성, 텍스트 기반 재편집, 더 나은 텍스트 프롬프트 따르기 및 생성 개념 사용자 정의

(개념 사용자 정의) 의 네 가지 측면에서 시작됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

이 섹션의 끝에서 저자는 현재 연구 동향과 향후 연구 방향에 대한 견해도 공유합니다.

인간의 의도를 더 잘 따르고 위의 네 가지 방향을 모두 더 유연하고 실현 가능하게 만들기 위해서는 대신에 우리가 필요로 하는 것은 일반 텍스트 생성 모델 개발

네 가지 방향의 각 대표 작품은 다음과 같습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

3. 통합된 시각적 모델

이 부분에서는 통합된 시각적 모델을 구축하는 데 직면한 과제에 대해 논의합니다.

The 다시 작성해야 하는 콘텐츠는 다음과 같습니다. 첫째, 입력 유형이 다릅니다.

다시 작성해야 하는 콘텐츠는 다음과 같습니다. 둘째, 작업마다 세부성이 서로 다르며 출력에도 서로 다른 형식이 필요합니다. 모델링 외에도 도전

예를 들어 다양한 유형의 라벨 주석 비용은 크게 다르며 수집 비용은 텍스트 데이터보다 훨씬 높기 때문에 시각적 데이터의 크기는 일반적으로 텍스트 말뭉치보다 훨씬 작습니다.

그러나 많은 어려움에도 불구하고 저자는 다음과 같이 지적했습니다.

CV 분야는 일반 및 통합 비전 시스템 개발에 점점 더 관심을 갖고 있으며 세 가지 유형의 트렌드가 나타났습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

첫 번째, 폐쇄 세트에서( Closed-set) to open-set(open-set)으로 텍스트와 비주얼이 더 잘 어울립니다.

특정 업무에서 일반 역량으로 전환하는 가장 중요한 이유는 새로운 업무마다 새로운 모델을 개발하는 데 드는 비용이 너무 높기 때문입니다

세 번째는 정적 모델에서 프롬프트 가능한 모델로, LLM은 다양한 언어를 채택할 수 있습니다 ​​​​그리고 상황에 맞는 프롬프트를 입력으로 받아 미세 조정 없이 사용자가 원하는 출력을 생성합니다. 우리가 구축하려는 일반 비전 모델은 동일한 상황별 학습 기능을 가져야 합니다.

4. LLM에서 지원하는 다중 모드 대형 모델

이 섹션에서는 다중 모드 대형 모델에 대해 포괄적으로 설명합니다.

먼저 배경과 대표적인 사례에 대한 심층적인 연구를 진행하고 OpenAI의 다중 모드 연구 진행 상황에 대해 논의하며 이 분야의 기존 연구 격차를 파악합니다.

다음으로 저자는 대규모 언어 모델에서 명령어 미세 조정의 중요성을 자세히 살펴봅니다.

그런 다음 저자는 원리, 의미 및 적용을 포함하여 다중 모드 대형 모델의 지침을 미세 조정하는 방법에 대해 논의합니다.

마지막으로 우리는 더 깊은 이해를 위해 다중 모드 모델 분야의 몇 가지 고급 주제도 다룰 것입니다. 콘텐츠.

5. 멀티모달 에이전트

멀티모달 에이전트는 다양한 멀티모달 전문가를 LLM과 연결하여 복잡한 멀티모달 이해 문제를 해결하는 방법입니다.

이 부분에서 저자는 주로 이 모델의 변형을 검토하고 이 방법과 기존 방법의 근본적인 차이점을 요약합니다.

MM-REACT를 예로 들어 이 방법이 어떻게 작동하는지 자세히 소개하겠습니다.

다중 모드 에이전트를 구축하는 방법과 다중 모드 이해에 대한 새로운 기능에 대한 포괄적인 접근 방식을 추가로 요약합니다. 또한 최신 및 최고의 LLM과 잠재적으로 수백만 개의 도구를 포함하여 이 기능을 쉽게 확장하는 방법도 다룹니다.

물론 마지막에는 다중 양식 에이전트를 개선/평가하는 방법을 포함하여 몇 가지 높은 수준의 주제도 논의됩니다. 이를 기반으로 구축된 다양한 애플리케이션 등

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서저자 소개

이 보고서의 저자는 7명입니다

발기자이자 총괄 책임자는 Chunyuan Li입니다. 그는 Microsoft Redmond의 수석 연구원이며 Duke University에서 박사 학위를 취득했습니다. 그의 최근 연구 관심 분야는 CV 및 NLP에 대한 대규모 사전 교육입니다.

그는 오프닝 소개와 마무리 요약을 담당했을 뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장의 집필도 담당했습니다. 재작성된 내용: 그는 기사의 시작과 끝뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장도 작성했습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

핵심 작성자는 4명입니다:

Zhe Gan
  • 이제 Apple AI/ML에 합류하여 대규모 비전 및 다중 모드 기본 모델 연구를 담당하고 있습니다. 이전에는 Microsoft Azure AI의 수석 연구원으로 북경 대학교에서 학사 및 석사 학위를, 듀크 대학교에서 박사 학위를 취득했습니다.

Zhengyuan Yang
  • Microsoft의 수석 연구원입니다. 그는 로체스터 대학을 졸업하고 ACM SIGMM 우수 박사상 및 기타 영예를 받았습니다. 그는 중국 과학 기술 대학교

Jianwei Yang
  • Microsoft Research Redmond 딥 러닝 그룹 수석 연구원에서 학부생으로 공부했습니다. 조지아 공과대학 박사.

Linjie Li
  • (여)
  • Microsoft 클라우드 및 AI 컴퓨터 비전 그룹 연구원, 퍼듀 대학교에서 석사 학위를 취득했습니다.

그들은 나머지 4개 주제 장의 작성을 각각 담당했습니다.

리뷰 주소: https://arxiv.org/abs/2309.10020

위 내용은 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제