위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접-일체 포함-php.cn

집

기술 주변기기

일체 포함

위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 30, 2023 pm 10:49 PM

마이크로소프트모델

시각 명령 미세 조정이 인기입니다.

이 문서는 Visual Instruction Tuning이라고 하며 University of Wisconsin-Madison, Microsoft Research 및 Columbia University가 공동으로 제작했습니다.

저자에는 Haotian Liu, Chunyuan Li, Qingyang Wu 및 Yong Jae Lee가 포함됩니다.

위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접

동시에 연구원들은 GitHub에서 코드, 모델 및 데이터 세트를 오픈 소스로 공개했습니다. 이 논문은 Arxiv에도 게재되었습니다.

설명

그럼 LLaVA의 기능은 정확히 무엇인가요? 신문 속으로 들어가 보면, 신문에 익숙하지 않은 사람들에게는 다소 낯설게 느껴질 수도 있습니다.

먼저 LLaVA님의 말씀을 살펴보겠습니다.

위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접

위 답변은 LLaVA의 Chatbot에서 생성된 것입니다. 제가 입력한 질문은 LLaVA의 기능은 무엇이며 사용자는 이를 어떻게 활용할 수 있습니까?

답은 다음과 같습니다.

LLaVA는 UW Madison WAIV 연구소에서 교육을 받은 대규모 언어 및 시각 보조원입니다. LLaVA는 자연어 이해 기능과 시각적 콘텐츠 분석 기능을 활용하여 사용자가 다양한 작업을 처리할 수 있도록 설계되었습니다.

LLaVA의 주요 기능은 다음과 같습니다:

· 텍스트 기반 작업: LLaVA는 텍스트를 처리 및 분석하여 사용자가 질문할 수 있고, LLaVA는 사용자와 대화하거나 사용자가 입력한 작업을 완료할 수 있습니다. 문서 요약 개선, 감정 분석, 엔터티 인식 등에 대해 이야기해 보세요.

· 이미지 기반 작업: LLaVA는 이미지를 분석하고, 이미지를 설명하고, 개체 인식을 수행하고, 장면을 분석하고 이해할 수 있습니다.

사용자가 LLaVA를 더 잘 사용하고 싶다면 인간과 대화하는 것처럼 LLaVA와 직접 대화할 수 있습니다. 가능한 한 많은 세부정보를 제공하시면 LLaVA가 보다 완전한 답변을 생성해 드립니다.

동시에 결국 LLaVA는 기계 학습 모델이자 AI 도구라는 점을 기억해야 합니다. 도구라면 한계가 있습니다. LLaVA는 사용자가 매번 입력하는 질문에 완벽하게 대답하지 못할 수도 있습니다.

물론 LLaVA도 끊임없이 학습하고 개선하고 있으며 그 기능은 점점 더 강력해질 것입니다.

일반적으로 LLaVA의 답변을 보면 챗봇의 기능은 GPT와 크게 다르지 않다는 것을 알 수 있습니다. 그러나 LLaVA는 이미지와 관련된 일부 작업을 처리할 수 있습니다.

색상 전시

연구원들은 Arxiv의 논문에서 LLaVA의 기술적 세부 사항을 자세히 설명했습니다.

기계 생성 지침을 사용하여 데이터를 따라가며 LLM(대형 언어 모델)에 대한 지침을 미세 조정하면 새로운 작업에 대한 영점 기능이 향상된다는 점을 아는 것이 중요하지만 이 아이디어는 다중 언어 모델에서는 덜 탐구되었습니다. 모달 필드.

논문에서 연구원들은 먼저 언어 전용 GPT-4를 사용하여 다중 모달 언어 이미지에 대한 지시 따르기 데이터를 생성하려고 시도했습니다.

이 생성된 데이터에 대한 조건 지정 지침을 통해 연구원들은 LLaVA를 소개합니다. LLaVA는 대규모 언어 및 시각 보조자이며, 일반 시각 및 시력을 위한 시각적 인코더와 LLM을 연결하는 엔드투엔드 훈련된 대규모 다중 모드 모델입니다. 언어 이해.

위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접

초기 실험에서 LLaVA는 인상적인 다중 모드 채팅 기능을 보여주었으며 때로는 보이지 않는 이미지/지침에 다중 모드 GPT-4 성능을 출력하고 합성 다중 모드 지침을 따르는 것으로 나타났습니다. 데이터 세트의 GPT-4와 비교하여 상대점수는 85.1%이다.

사이언스 매거진에 맞춰 미세 조정했을 때 LLaVA와 GPT-4의 시너지 효과로 92.53%라는 새로운 최첨단 정확도를 달성했습니다.

연구원들은 GPT-4에서 생성된 시각적 명령 조정을 위한 데이터, 모델 및 코드 베이스를 공개했습니다.

Multimodal model

먼저 정의를 명확히 하세요.

대규모 멀티모달 모델은 텍스트, 이미지 등 다양한 입력 유형을 처리하고 분석할 수 있는 머신러닝 기술 기반 모델을 말합니다.

이러한 모델은 더 넓은 범위의 작업을 처리하도록 설계되었으며 다양한 형태의 데이터를 이해할 수 있습니다. 텍스트와 이미지를 입력으로 사용함으로써 이러한 모델은 설명을 이해하고 컴파일하는 능력을 향상시켜 보다 정확하고 관련성 있는 답변을 생성합니다.

인간은 시각, 언어 등 다양한 채널을 통해 세계와 상호 작용합니다. 각 채널은 특정 세계 개념을 표현하고 전달하는 데 고유한 장점이 있어 세계를 더 잘 이해하는 데 도움이 됩니다.

인공 지능의 핵심 목표 중 하나는 인간의 의도와 일치하면서 다중 모드의 시각적 및 언어 지침을 효과적으로 따르고 다양한 실제 작업을 완료할 수 있는 보편적인 보조 장치를 개발하는 것입니다.

결과적으로 개발자 커뮤니티는 분류, 감지, 분할, 설명, 비전 생성 및 편집과 같은 개방형 시각적 이해의 강력한 기능을 갖춘 언어 강화 기본 비전 모델 개발에 대한 새로운 관심을 목격하고 있습니다.

이러한 기능에서 각 작업은 단일 대형 시각적 모델에 의해 독립적으로 해결되며 작업 지침은 모델 디자인에서 암시적으로 고려됩니다.

게다가 언어는 이미지 내용을 설명하는 데에만 사용됩니다. 이를 통해 언어는 시각적 신호를 인간 의사소통의 공통 채널인 언어 의미론으로 매핑하는 데 중요한 역할을 할 수 있습니다. 그러나 이로 인해 상호 작용이 제한되고 사용자 지침에 대한 적응성이 제한된 고정 인터페이스가 있는 모델이 발생하는 경우가 많습니다. 메이 관심 있는 작업을 수행하고 해결합니다.

예를 들어 최근 ChatGPT 및 GPT-4의 성공은 이 LLM이 인간의 지시를 따르는 능력을 입증했으며 오픈 소스 LLM 개발에 대한 큰 관심을 불러일으켰습니다.

LLaMA는 GPT-3와 성능이 동등한 오픈 소스 LLM입니다. 지속적인 작업에서는 샘플에 따라 다양한 기계 생성 고품질 지침을 활용하여 LLM의 정렬 기능을 개선하고 독점 LLM에 비해 인상적인 성능을 보고합니다. 중요한 것은 이 작업 라인이 텍스트 전용이라는 것입니다.

본 논문에서 연구자들은 명령 튜닝을 다중 모달 공간으로 확장하고 범용 시각 보조 장치를 구축하기 위한 길을 닦는 최초의 시도인 시각적 명령 튜닝을 제안합니다. 구체적으로 논문의 주요 내용은 다음과 같습니다.

데이터를 따르는 다중 모드 명령. 주요 과제는 데이터를 따라가기 위한 시각적 언어 지침이 부족하다는 것입니다. ChatGPT/GPT-4를 사용하여 이미지-텍스트 쌍을 적절한 명령 따르기 형식으로 변환하는 데이터 개혁 관점과 파이프라인을 제시합니다.

대형 멀티모달 모델. 연구진은 CLIP의 개방형 시각 인코더와 언어 디코더 LaMA를 연결하여 LMM(Large Multimodal Model)을 개발하고 생성된 교육용 시각-언어 데이터에 대해 엔드투엔드(End-to-End)를 미세 조정했습니다. 경험적 연구는 생성된 데이터를 사용하여 LMM 명령 튜닝의 효율성을 검증하고 일반적인 명령을 따르는 시각적 에이전트를 구축하기 위한 실용적인 제안을 제공합니다. GPT 4를 통해 연구팀은 Science QA 다중 모드 추론 데이터 세트에서 최고 수준의 성능을 달성했습니다.

오픈 소스. 연구팀은 생성된 다중 모드 명령 데이터, 데이터 생성 및 모델 훈련을 위한 코드 라이브러리, 모델 체크포인트, 시각적 채팅 시연 등을 대중에게 공개했습니다.