다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서-일체 포함-php.cn

집

기술 주변기기

일체 포함

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

王林

Sep 25, 2023 pm 04:49 PM

데이터연구

멀티모달 대형 모델에 대한 가장 종합적인 리뷰가 여기에 있습니다!

Microsoft의

7명의 중국 연구원이 저술, 119페이지 ——

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

현재 완성된 과 아직 선두에 있습니다두 가지 유형의 멀티모달 대형 모델 연구 방향에서 시작됩니다. 처음에는 다섯 가지 구체적인 연구 주제를 종합적으로 요약합니다.

시각적 생성
통합 비전 모델
LLM 기반 멀티 모달 대형 모델
멀티 모달 에이전트

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

에 집중하세요. 우리는 다음과 같은 현상을 발견했습니다.

다중 모드 기본 모델이 전문화 모델에서
범용 모델로 이동했습니다.

Ps. 작가가 논문 시작 부분에 직접

도라에몽 이미지를 그린 이유도 바로 여기에 있습니다.

이 리뷰를 읽는 데 적합한 사람은 누구입니까

(신고)?

Microsoft의 원래 말:

전문 연구원이든 학생이든 다중 모달 기본 모델의 기본 지식과 최신 진행 상황을 배우는 데 관심이 있다면 이 콘텐츠는 매우 적합합니다.

한번 살펴보세요~

멀티모달 대형모델 현황을 알 수 있는 기사

5가지 특정 주제 중 처음 2개는 현재 성숙한 분야이고, 마지막 3개는 최첨단 분야

1 . 시각적 이해

이 부분의 핵심 문제는 강력한 이미지 이해 백본을 어떻게 사전 훈련시키는가입니다.

아래 그림과 같이 모델 학습에 사용되는 다양한 감독 신호에 따라 방법을

라벨 감독, 언어 감독
(CLIP으로 표시) 및 이미지 전용 자체 감독의 세 가지 범주로 나눌 수 있습니다. .

마지막은 감독 신호가 이미지 자체에서 채굴된다는 것을 나타냅니다. 인기 있는 방법에는 대조 학습, 비대비 학습 및 마스크된 이미지 모델링이 있습니다.

이러한 방법 외에도 기사에서는 다중 모달 융합, 영역 수준 및 픽셀 수준 이미지 이해와 같은 범주에서 사전 학습 방법에 대해 자세히 설명합니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

위의 각 방법의 대표적인 작품은 다음과 같습니다. 또한 나열됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

2. 시각적 생성

이 주제는 AIGC의 핵심이며 이미지 생성에만 국한되지 않고 비디오, 3D 포인트 클라우드 등도 포함됩니다.

그리고 그 유용성은 예술, 디자인 및 기타 분야에만 국한되지 않습니다. 교육 데이터를 합성하는 데에도 매우 도움이 되며 다중 모드 콘텐츠 이해 및 생성의 폐쇄 루프를 달성하는 데 직접적으로 도움이 됩니다.

이 부분에서 저자는 인간의 의도

(이미지 생성 강조)와 엄격하게 일치하는 효과를 생성하는 중요성과 방법에 중점을 둡니다.

구체적으로 공간 제어 가능한 생성, 텍스트 기반 재편집, 더 나은 텍스트 프롬프트 따르기 및 생성 개념 사용자 정의

(개념 사용자 정의) 의 네 가지 측면에서 시작됩니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

이 섹션의 끝에서 저자는 현재 연구 동향과 향후 연구 방향에 대한 견해도 공유합니다.

인간의 의도를 더 잘 따르고 위의 네 가지 방향을 모두 더 유연하고 실현 가능하게 만들기 위해서는 대신에 우리가 필요로 하는 것은 일반 텍스트 생성 모델 개발

네 가지 방향의 각 대표 작품은 다음과 같습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

3. 통합된 시각적 모델

이 부분에서는 통합된 시각적 모델을 구축하는 데 직면한 과제에 대해 논의합니다.

The 다시 작성해야 하는 콘텐츠는 다음과 같습니다. 첫째, 입력 유형이 다릅니다.

다시 작성해야 하는 콘텐츠는 다음과 같습니다. 둘째, 작업마다 세부성이 서로 다르며 출력에도 서로 다른 형식이 필요합니다. 모델링 외에도 도전

예를 들어 다양한 유형의 라벨 주석 비용은 크게 다르며 수집 비용은 텍스트 데이터보다 훨씬 높기 때문에 시각적 데이터의 크기는 일반적으로 텍스트 말뭉치보다 훨씬 작습니다.

그러나 많은 어려움에도 불구하고 저자는 다음과 같이 지적했습니다.

CV 분야는 일반 및 통합 비전 시스템 개발에 점점 더 관심을 갖고 있으며 세 가지 유형의 트렌드가 나타났습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

첫 번째, 폐쇄 세트에서( Closed-set) to open-set(open-set)으로 텍스트와 비주얼이 더 잘 어울립니다.

특정 업무에서 일반 역량으로 전환하는 가장 중요한 이유는 새로운 업무마다 새로운 모델을 개발하는 데 드는 비용이 너무 높기 때문입니다

세 번째는 정적 모델에서 프롬프트 가능한 모델로, LLM은 다양한 언어를 채택할 수 있습니다 그리고 상황에 맞는 프롬프트를 입력으로 받아 미세 조정 없이 사용자가 원하는 출력을 생성합니다. 우리가 구축하려는 일반 비전 모델은 동일한 상황별 학습 기능을 가져야 합니다.

4. LLM에서 지원하는 다중 모드 대형 모델

이 섹션에서는 다중 모드 대형 모델에 대해 포괄적으로 설명합니다.

먼저 배경과 대표적인 사례에 대한 심층적인 연구를 진행하고 OpenAI의 다중 모드 연구 진행 상황에 대해 논의하며 이 분야의 기존 연구 격차를 파악합니다.

다음으로 저자는 대규모 언어 모델에서 명령어 미세 조정의 중요성을 자세히 살펴봅니다.

그런 다음 저자는 원리, 의미 및 적용을 포함하여 다중 모드 대형 모델의 지침을 미세 조정하는 방법에 대해 논의합니다.

마지막으로 우리는 더 깊은 이해를 위해 다중 모드 모델 분야의 몇 가지 고급 주제도 다룰 것입니다. 콘텐츠.

5. 멀티모달 에이전트

멀티모달 에이전트는 다양한 멀티모달 전문가를 LLM과 연결하여 복잡한 멀티모달 이해 문제를 해결하는 방법입니다.

이 부분에서 저자는 주로 이 모델의 변형을 검토하고 이 방법과 기존 방법의 근본적인 차이점을 요약합니다.

MM-REACT를 예로 들어 이 방법이 어떻게 작동하는지 자세히 소개하겠습니다.

다중 모드 에이전트를 구축하는 방법과 다중 모드 이해에 대한 새로운 기능에 대한 포괄적인 접근 방식을 추가로 요약합니다. 또한 최신 및 최고의 LLM과 잠재적으로 수백만 개의 도구를 포함하여 이 기능을 쉽게 확장하는 방법도 다룹니다.

물론 마지막에는 다중 양식 에이전트를 개선/평가하는 방법을 포함하여 몇 가지 높은 수준의 주제도 논의됩니다. 이를 기반으로 구축된 다양한 애플리케이션 등

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서 저자 소개

이 보고서의 저자는 7명입니다

발기자이자 총괄 책임자는 Chunyuan Li입니다. 그는 Microsoft Redmond의 수석 연구원이며 Duke University에서 박사 학위를 취득했습니다. 그의 최근 연구 관심 분야는 CV 및 NLP에 대한 대규모 사전 교육입니다.

그는 오프닝 소개와 마무리 요약을 담당했을 뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장의 집필도 담당했습니다. 재작성된 내용: 그는 기사의 시작과 끝뿐만 아니라 "LLM을 사용하여 훈련된 다중 모드 대형 모델" 장도 작성했습니다.

다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서

핵심 작성자는 4명입니다:

Zhe Gan

이제 Apple AI/ML에 합류하여 대규모 비전 및 다중 모드 기본 모델 연구를 담당하고 있습니다. 이전에는 Microsoft Azure AI의 수석 연구원으로 북경 대학교에서 학사 및 석사 학위를, 듀크 대학교에서 박사 학위를 취득했습니다.

Zhengyuan Yang

Microsoft의 수석 연구원입니다. 그는 로체스터 대학을 졸업하고 ACM SIGMM 우수 박사상 및 기타 영예를 받았습니다. 그는 중국 과학 기술 대학교

Jianwei Yang

Microsoft Research Redmond 딥 러닝 그룹 수석 연구원에서 학부생으로 공부했습니다. 조지아 공과대학 박사.

Linjie Li

(여)

그들은 나머지 4개 주제 장의 작성을 각각 담당했습니다.

리뷰 주소: https://arxiv.org/abs/2309.10020

위 내용은 다중 모드 대형 모델에 대한 가장 포괄적인 리뷰가 여기에 있습니다! 마이크로소프트 연구원 7명 적극 협력, 5개 주요 주제, 119페이지 분량의 문서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

강화 조정 안내서 - 분석 VidhyaApr 28, 2025 am 09:30 AM

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.