멀티모달 대형 모델에 대한 가장 종합적인 리뷰가 여기에 있습니다!
Microsoft의7명의 중국 연구원이 저술, 119페이지 ——
현재 완성된 과 아직 선두에 있습니다두 가지 유형의 멀티모달 대형 모델 연구 방향에서 시작됩니다. 처음에는 다섯 가지 구체적인 연구 주제를 종합적으로 요약합니다.
다중 모드 기본 모델이 전문화 모델에서Ps. 작가가 논문 시작 부분에 직접범용 모델로 이동했습니다.
도라에몽 이미지를 그린 이유도 바로 여기에 있습니다.
이 리뷰를 읽는 데 적합한 사람은 누구입니까(신고)?
Microsoft의 원래 말: 전문 연구원이든 학생이든 다중 모달 기본 모델의 기본 지식과 최신 진행 상황을 배우는 데 관심이 있다면 이 콘텐츠는 매우 적합합니다.한번 살펴보세요~멀티모달 대형모델 현황을 알 수 있는 기사5가지 특정 주제 중 처음 2개는 현재 성숙한 분야이고, 마지막 3개는 최첨단 분야1 . 시각적 이해이 부분의 핵심 문제는 강력한 이미지 이해 백본을 어떻게 사전 훈련시키는가입니다. 아래 그림과 같이 모델 학습에 사용되는 다양한 감독 신호에 따라 방법을
라벨 감독, 언어 감독
(CLIP으로 표시) 및 이미지 전용 자체 감독의 세 가지 범주로 나눌 수 있습니다. .
(이미지 생성 강조)와 엄격하게 일치하는 효과를 생성하는 중요성과 방법에 중점을 둡니다.
구체적으로 공간 제어 가능한 생성, 텍스트 기반 재편집, 더 나은 텍스트 프롬프트 따르기 및 생성 개념 사용자 정의(개념 사용자 정의) 의 네 가지 측면에서 시작됩니다.
이 섹션의 끝에서 저자는 현재 연구 동향과 향후 연구 방향에 대한 견해도 공유합니다.인간의 의도를 더 잘 따르고 위의 네 가지 방향을 모두 더 유연하고 실현 가능하게 만들기 위해서는 대신에 우리가 필요로 하는 것은 일반 텍스트 생성 모델 개발네 가지 방향의 각 대표 작품은 다음과 같습니다. 3. 통합된 시각적 모델이 부분에서는 통합된 시각적 모델을 구축하는 데 직면한 과제에 대해 논의합니다.The 다시 작성해야 하는 콘텐츠는 다음과 같습니다. 첫째, 입력 유형이 다릅니다. 다시 작성해야 하는 콘텐츠는 다음과 같습니다. 둘째, 작업마다 세부성이 서로 다르며 출력에도 서로 다른 형식이 필요합니다. 모델링 외에도 도전
예를 들어 다양한 유형의 라벨 주석 비용은 크게 다르며 수집 비용은 텍스트 데이터보다 훨씬 높기 때문에 시각적 데이터의 크기는 일반적으로 텍스트 말뭉치보다 훨씬 작습니다.
그러나 많은 어려움에도 불구하고 저자는 다음과 같이 지적했습니다.
CV 분야는 일반 및 통합 비전 시스템 개발에 점점 더 관심을 갖고 있으며 세 가지 유형의 트렌드가 나타났습니다.
첫 번째, 폐쇄 세트에서( Closed-set) to open-set(open-set)으로 텍스트와 비주얼이 더 잘 어울립니다.
특정 업무에서 일반 역량으로 전환하는 가장 중요한 이유는 새로운 업무마다 새로운 모델을 개발하는 데 드는 비용이 너무 높기 때문입니다
세 번째는 정적 모델에서 프롬프트 가능한 모델로, LLM은 다양한 언어를 채택할 수 있습니다 그리고 상황에 맞는 프롬프트를 입력으로 받아 미세 조정 없이 사용자가 원하는 출력을 생성합니다. 우리가 구축하려는 일반 비전 모델은 동일한 상황별 학습 기능을 가져야 합니다.
이 섹션에서는 다중 모드 대형 모델에 대해 포괄적으로 설명합니다.
먼저 배경과 대표적인 사례에 대한 심층적인 연구를 진행하고 OpenAI의 다중 모드 연구 진행 상황에 대해 논의하며 이 분야의 기존 연구 격차를 파악합니다.
다음으로 저자는 대규모 언어 모델에서 명령어 미세 조정의 중요성을 자세히 살펴봅니다.
그런 다음 저자는 원리, 의미 및 적용을 포함하여 다중 모드 대형 모델의 지침을 미세 조정하는 방법에 대해 논의합니다.
마지막으로 우리는 더 깊은 이해를 위해 다중 모드 모델 분야의 몇 가지 고급 주제도 다룰 것입니다. 콘텐츠.
5. 멀티모달 에이전트
이 부분에서 저자는 주로 이 모델의 변형을 검토하고 이 방법과 기존 방법의 근본적인 차이점을 요약합니다.
MM-REACT를 예로 들어 이 방법이 어떻게 작동하는지 자세히 소개하겠습니다.
다중 모드 에이전트를 구축하는 방법과 다중 모드 이해에 대한 새로운 기능에 대한 포괄적인 접근 방식을 추가로 요약합니다. 또한 최신 및 최고의 LLM과 잠재적으로 수백만 개의 도구를 포함하여 이 기능을 쉽게 확장하는 방법도 다룹니다.
물론 마지막에는 다중 양식 에이전트를 개선/평가하는 방법을 포함하여 몇 가지 높은 수준의 주제도 논의됩니다. 이를 기반으로 구축된 다양한 애플리케이션 등
저자 소개
발기자이자 총괄 책임자는 Chunyuan Li입니다. 그는 Microsoft Redmond의 수석 연구원이며 Duke University에서 박사 학위를 취득했습니다. 그의 최근 연구 관심 분야는 CV 및 NLP에 대한 대규모 사전 교육입니다.
그는 오프닝 소개와 마무리 요약을 담당했을 뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장의 집필도 담당했습니다. 재작성된 내용: 그는 기사의 시작과 끝뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장도 작성했습니다.
핵심 작성자는 4명입니다:
Zhe Gan그들은 나머지 4개 주제 장의 작성을 각각 담당했습니다.
리뷰 주소: https://arxiv.org/abs/2309.10020위 내용은 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!