위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접
시각 명령 미세 조정이 인기입니다.
이 문서는 Visual Instruction Tuning이라고 하며 University of Wisconsin-Madison, Microsoft Research 및 Columbia University가 공동으로 제작했습니다.
저자에는 Haotian Liu, Chunyuan Li, Qingyang Wu 및 Yong Jae Lee가 포함됩니다.
동시에 연구원들은 GitHub에서 코드, 모델 및 데이터 세트를 오픈 소스로 공개했습니다. 이 논문은 Arxiv에도 게재되었습니다.
설명
그럼 LLaVA의 기능은 정확히 무엇인가요? 신문 속으로 들어가 보면, 신문에 익숙하지 않은 사람들에게는 다소 낯설게 느껴질 수도 있습니다.
먼저 LLaVA님의 말씀을 살펴보겠습니다.
위 답변은 LLaVA의 Chatbot에서 생성된 것입니다. 제가 입력한 질문은 LLaVA의 기능은 무엇이며 사용자는 이를 어떻게 활용할 수 있습니까?
답은 다음과 같습니다.
LLaVA는 UW Madison WAIV 연구소에서 교육을 받은 대규모 언어 및 시각 보조원입니다. LLaVA는 자연어 이해 기능과 시각적 콘텐츠 분석 기능을 활용하여 사용자가 다양한 작업을 처리할 수 있도록 설계되었습니다.
LLaVA의 주요 기능은 다음과 같습니다:
· 텍스트 기반 작업: LLaVA는 텍스트를 처리 및 분석하여 사용자가 질문할 수 있고, LLaVA는 사용자와 대화하거나 사용자가 입력한 작업을 완료할 수 있습니다. 문서 요약 개선, 감정 분석, 엔터티 인식 등에 대해 이야기해 보세요.
· 이미지 기반 작업: LLaVA는 이미지를 분석하고, 이미지를 설명하고, 개체 인식을 수행하고, 장면을 분석하고 이해할 수 있습니다.
사용자가 LLaVA를 더 잘 사용하고 싶다면 인간과 대화하는 것처럼 LLaVA와 직접 대화할 수 있습니다. 가능한 한 많은 세부정보를 제공하시면 LLaVA가 보다 완전한 답변을 생성해 드립니다.
동시에 결국 LLaVA는 기계 학습 모델이자 AI 도구라는 점을 기억해야 합니다. 도구라면 한계가 있습니다. LLaVA는 사용자가 매번 입력하는 질문에 완벽하게 대답하지 못할 수도 있습니다.
물론 LLaVA도 끊임없이 학습하고 개선하고 있으며 그 기능은 점점 더 강력해질 것입니다.
일반적으로 LLaVA의 답변을 보면 챗봇의 기능은 GPT와 크게 다르지 않다는 것을 알 수 있습니다. 그러나 LLaVA는 이미지와 관련된 일부 작업을 처리할 수 있습니다.
색상 전시
연구원들은 Arxiv의 논문에서 LLaVA의 기술적 세부 사항을 자세히 설명했습니다.
기계 생성 지침을 사용하여 데이터를 따라가며 LLM(대형 언어 모델)에 대한 지침을 미세 조정하면 새로운 작업에 대한 영점 기능이 향상된다는 점을 아는 것이 중요하지만 이 아이디어는 다중 언어 모델에서는 덜 탐구되었습니다. 모달 필드.
논문에서 연구원들은 먼저 언어 전용 GPT-4를 사용하여 다중 모달 언어 이미지에 대한 지시 따르기 데이터를 생성하려고 시도했습니다.
이 생성된 데이터에 대한 조건 지정 지침을 통해 연구원들은 LLaVA를 소개합니다. LLaVA는 대규모 언어 및 시각 보조자이며, 일반 시각 및 시력을 위한 시각적 인코더와 LLM을 연결하는 엔드투엔드 훈련된 대규모 다중 모드 모델입니다. 언어 이해.
초기 실험에서 LLaVA는 인상적인 다중 모드 채팅 기능을 보여주었으며 때로는 보이지 않는 이미지/지침에 다중 모드 GPT-4 성능을 출력하고 합성 다중 모드 지침을 따르는 것으로 나타났습니다. 데이터 세트의 GPT-4와 비교하여 상대점수는 85.1%이다.
사이언스 매거진에 맞춰 미세 조정했을 때 LLaVA와 GPT-4의 시너지 효과로 92.53%라는 새로운 최첨단 정확도를 달성했습니다.
연구원들은 GPT-4에서 생성된 시각적 명령 조정을 위한 데이터, 모델 및 코드 베이스를 공개했습니다.
Multimodal model
먼저 정의를 명확히 하세요.
대규모 멀티모달 모델은 텍스트, 이미지 등 다양한 입력 유형을 처리하고 분석할 수 있는 머신러닝 기술 기반 모델을 말합니다.
이러한 모델은 더 넓은 범위의 작업을 처리하도록 설계되었으며 다양한 형태의 데이터를 이해할 수 있습니다. 텍스트와 이미지를 입력으로 사용함으로써 이러한 모델은 설명을 이해하고 컴파일하는 능력을 향상시켜 보다 정확하고 관련성 있는 답변을 생성합니다.
인간은 시각, 언어 등 다양한 채널을 통해 세계와 상호 작용합니다. 각 채널은 특정 세계 개념을 표현하고 전달하는 데 고유한 장점이 있어 세계를 더 잘 이해하는 데 도움이 됩니다.
인공 지능의 핵심 목표 중 하나는 인간의 의도와 일치하면서 다중 모드의 시각적 및 언어 지침을 효과적으로 따르고 다양한 실제 작업을 완료할 수 있는 보편적인 보조 장치를 개발하는 것입니다.
결과적으로 개발자 커뮤니티는 분류, 감지, 분할, 설명, 비전 생성 및 편집과 같은 개방형 시각적 이해의 강력한 기능을 갖춘 언어 강화 기본 비전 모델 개발에 대한 새로운 관심을 목격하고 있습니다.
이러한 기능에서 각 작업은 단일 대형 시각적 모델에 의해 독립적으로 해결되며 작업 지침은 모델 디자인에서 암시적으로 고려됩니다.
게다가 언어는 이미지 내용을 설명하는 데에만 사용됩니다. 이를 통해 언어는 시각적 신호를 인간 의사소통의 공통 채널인 언어 의미론으로 매핑하는 데 중요한 역할을 할 수 있습니다. 그러나 이로 인해 상호 작용이 제한되고 사용자 지침에 대한 적응성이 제한된 고정 인터페이스가 있는 모델이 발생하는 경우가 많습니다. 메이 관심 있는 작업을 수행하고 해결합니다.
예를 들어 최근 ChatGPT 및 GPT-4의 성공은 이 LLM이 인간의 지시를 따르는 능력을 입증했으며 오픈 소스 LLM 개발에 대한 큰 관심을 불러일으켰습니다.
LLaMA는 GPT-3와 성능이 동등한 오픈 소스 LLM입니다. 지속적인 작업에서는 샘플에 따라 다양한 기계 생성 고품질 지침을 활용하여 LLM의 정렬 기능을 개선하고 독점 LLM에 비해 인상적인 성능을 보고합니다. 중요한 것은 이 작업 라인이 텍스트 전용이라는 것입니다.
본 논문에서 연구자들은 명령 튜닝을 다중 모달 공간으로 확장하고 범용 시각 보조 장치를 구축하기 위한 길을 닦는 최초의 시도인 시각적 명령 튜닝을 제안합니다. 구체적으로 논문의 주요 내용은 다음과 같습니다.
데이터를 따르는 다중 모드 명령. 주요 과제는 데이터를 따라가기 위한 시각적 언어 지침이 부족하다는 것입니다. ChatGPT/GPT-4를 사용하여 이미지-텍스트 쌍을 적절한 명령 따르기 형식으로 변환하는 데이터 개혁 관점과 파이프라인을 제시합니다.
대형 멀티모달 모델. 연구진은 CLIP의 개방형 시각 인코더와 언어 디코더 LaMA를 연결하여 LMM(Large Multimodal Model)을 개발하고 생성된 교육용 시각-언어 데이터에 대해 엔드투엔드(End-to-End)를 미세 조정했습니다. 경험적 연구는 생성된 데이터를 사용하여 LMM 명령 튜닝의 효율성을 검증하고 일반적인 명령을 따르는 시각적 에이전트를 구축하기 위한 실용적인 제안을 제공합니다. GPT 4를 통해 연구팀은 Science QA 다중 모드 추론 데이터 세트에서 최고 수준의 성능을 달성했습니다.
오픈 소스. 연구팀은 생성된 다중 모드 명령 데이터, 데이터 생성 및 모델 훈련을 위한 코드 라이브러리, 모델 체크포인트, 시각적 채팅 시연 등을 대중에게 공개했습니다.
결과 표시
LLaVA가 모든 종류의 문제를 처리할 수 있으며 생성된 답변은 포괄적이고 논리적이라는 것을 알 수 있습니다.
LLaVA는 시각적 채팅 측면에서 GPT-4 상대 점수가 85%로 GPT-4 수준에 가까운 일부 다중 모드 기능을 보여줍니다.
논리적 질문과 답변 측면에서 LLaVA는 심지어 새로운 SoTA-92.53%에 도달하여 다중 모드 사고 체인을 물리쳤습니다.
위 내용은 위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

ON-DEVICE AI의 힘을 활용 : 개인 챗봇 CLI 구축 최근에 개인 AI 조수의 개념은 공상 과학처럼 보였다. 기술 애호가 인 Alex, 똑똑하고 현지 AI 동반자를 꿈꾸는 것을 상상해보십시오.

AI4MH의 첫 출시는 2025 년 4 월 15 일에 열렸으며, 유명한 정신과 의사이자 신경 과학자 인 Luminary Dr. Tom Insel 박사는 킥오프 스피커 역할을했습니다. Insel 박사는 정신 건강 연구 및 테크노에서 뛰어난 작업으로 유명합니다.

Engelbert는 "WNBA가 모든 사람, 플레이어, 팬 및 기업 파트너가 안전하고 가치가 있으며 권한을 부여받는 공간으로 남아 있기를 원합니다. 아노

소개 Python은 특히 데이터 과학 및 생성 AI에서 프로그래밍 언어로 탁월합니다. 대규모 데이터 세트를 처리 할 때 효율적인 데이터 조작 (저장, 관리 및 액세스)이 중요합니다. 우리는 이전에 숫자와 st를 다루었습니다

다이빙하기 전에 중요한 경고 : AI 성능은 비 결정적이며 고도로 사용하는 것이 중요합니다. 간단히 말하면 마일리지는 다를 수 있습니다. 이 기사 (또는 다른) 기사를 최종 단어로 취하지 마십시오. 대신 에이 모델을 자신의 시나리오에서 테스트하십시오.

뛰어난 AI/ML 포트폴리오 구축 : 초보자 및 전문가를위한 안내서 인공 지능 (AI) 및 머신 러닝 (ML)의 역할을 확보하는 데 강력한 포트폴리오를 만드는 것이 중요합니다. 이 안내서는 포트폴리오 구축에 대한 조언을 제공합니다

결과? 소진, 비 효율성 및 탐지와 동작 사이의 넓은 차이. 이 중 어느 것도 사이버 보안에서 일하는 사람에게는 충격이되지 않습니다. 그러나 에이전트 AI의 약속은 잠재적 인 전환점으로 부상했다. 이 새로운 수업

장기 파트너십 대 즉각적인 영향? 2 주 전 Openai는 2025 년 5 월 말까지 미국과 캐나다 대학생들에게 Chatgpt Plus에 무료로 이용할 수있는 강력한 단기 제안으로 발전했습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

Dreamweaver Mac版
시각적 웹 개발 도구
