다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 01, 2024 pm 05:15 PM

산업희소 모델대규모 시각적 언어 모델

대규모 시각적 언어 모델(LVLM)은 모델을 확장하여 성능을 향상시킬 수 있습니다. 그러나 매개변수 크기를 늘리면 각 토큰의 계산이 모든 모델 매개변수를 활성화하므로 훈련 및 추론 비용이 증가합니다.

북경 대학교, 쑨원 대학교 및 기타 기관의 연구원들은 다중 모달 학습 및 모델 희소성과 관련된 성능 저하 문제를 해결하기 위해 MoE-Tuning이라는 새로운 훈련 전략을 공동으로 제안했습니다. MoE-Tuning은 놀라운 수의 매개변수를 사용하지만 일정한 계산 비용을 사용하여 희소 모델을 구축할 수 있습니다. 또한 연구원들은 MoE-LLaVA 프레임워크라고 불리는 MoE 기반의 새로운 희소 LVLM 아키텍처도 제안했습니다. 이 프레임워크에서는 라우팅 알고리즘을 통해 상위 k명의 전문가만 활성화되고 나머지 전문가는 비활성 상태로 유지됩니다. 이러한 방식으로 MoE-LLaVA 프레임워크는 배포 프로세스 중에 전문가 네트워크의 리소스를 보다 효율적으로 활용할 수 있습니다. 이러한 연구 결과는 LVLM 모델의 다중 모드 학습 및 모델 희소성 문제를 해결하기 위한 새로운 솔루션을 제공합니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

논문 주소: https://arxiv.org/abs/2401.15947
프로젝트 주소: https://github.com/PKU-YuanGroup/MoE-LLaVA
데모 주소: https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
논문 제목: MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA에는 3B 희소 활성화 매개변수, 성능만 있습니다. 그러나 다양한 시각적 이해 데이터 세트에서는 LLaVA-1.5-7B와 동일하며, 객체 환상 벤치마크 테스트에서는 LLaVA-1.5-13B를 능가하기도 합니다. MoE-LLaVA를 통해 이 연구는 희소 LVLM에 대한 벤치마크를 확립하고 보다 효율적이고 효과적인 다중 모드 학습 시스템을 개발하기 위한 향후 연구에 귀중한 통찰력을 제공하는 것을 목표로 합니다. MoE-LLaVA 팀은 모든 데이터, 코드 및 모델을 공개했습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 1 MoE-LLaVA와 다른 LVLM의 환각 성능 비교}

방법 소개

MoE-LLaVA는 무대 훈련 전략. 그림 2에서 볼 수 있듯이 비전 인코더는 입력 이미지를 처리하여 시각적 토큰 시퀀스를 얻습니다. 투영 레이어는 시각적 토큰을 LLM이 허용하는 차원으로 매핑하는 데 사용됩니다. 마찬가지로, 이미지와 쌍을 이루는 텍스트는 단어 임베딩 레이어를 통해 투영되어 시퀀스 텍스트 토큰을 얻습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

1단계: 그림 2에 표시된 것처럼 1단계의 목표는 시각적 토큰을 LLM에 적용하고 LLM에 그림의 엔터티를 이해할 수 있는 기능을 제공하는 것입니다. MoE-LLaVA는 MLP를 사용하여 이미지 토큰을 LLM의 입력 도메인에 투영합니다. 이는 작은 이미지 패치가 LLM에 의해 의사 텍스트 토큰으로 처리된다는 것을 의미합니다. 이 단계에서 LLM은 이미지를 설명하고 더 높은 수준의 이미지 의미를 이해하도록 훈련됩니다. 이 단계에서는 MoE 레이어가 LVLM에 적용되지 않습니다.

^{그림 3 보다 구체적인 훈련 프레임워크 및 훈련 전략}

2단계: 다중 모드 명령 데이터를 사용하여 미세 조정하는 것은 대형 모델의 기능과 제어 가능성을 향상시키는 핵심 기술이며, 현 단계에서는 LLM LVLM은 다중 모드 이해를 위해 조정되었습니다. 이 단계에서 연구는 그림 논리적 추론 및 텍스트 인식과 같은 고급 작업을 포함하여 보다 복잡한 지침을 추가하며, 이를 위해서는 모델에 더 강력한 다중 모드 이해 기능이 필요합니다. 일반적으로 Dense 모델의 LVLM은 이 시점에서 훈련됩니다. 그러나 연구팀은 LLM을 LVLM으로 변환하는 동시에 모델을 Sparsing하는 것이 어렵다는 것을 발견했습니다. 따라서 MoE-LLaVA에서는 희소 모델 학습의 어려움을 줄이기 위해 두 번째 단계의 가중치를 세 번째 단계의 초기화로 사용합니다.

3단계: MoE-LLaVA는 FFN의 여러 사본을 전문가 세트의 초기화 가중치로 복사합니다. 시각적 토큰과 텍스트 토큰이 MoE 계층에 공급되면 라우터는 각 토큰과 전문가의 일치 가중치를 계산한 다음 각 토큰은 처리를 위해 가장 일치하는 상위 k 전문가에게 전송됩니다. 라우터의 가중치 가중치 합계가 출력에 집계됩니다. Top-k 전문가가 활성화되면 나머지 전문가는 비활성 상태로 유지되며 이 모델은 가능한 희소 경로가 무한한 MoE-LLaVA를 구성합니다.

Experiment

그림 4에서 볼 수 있듯이 MoE-LLaVA는 소프트 라우터가 장착된 LVLM 기반의 최초의 Sparse 모델이므로 본 연구에서는 이전 모델을 Dense 모델로 정리합니다. 연구팀은 5개의 이미지 질의응답 벤치마크에서 MoE-LLaVA의 성능을 검증하고, 활성화된 매개변수의 양과 이미지 해상도를 보고했다. SOTA 방법 LLaVA-1.5와 비교하여 MoE-LLaVA-2.7B×4는 강력한 이미지 이해 기능을 보여 주며 5개 벤치마크에서 성능이 LLaVA-1.5에 매우 가깝습니다. 그중 MoE-LLaVA는 3.6B 희소 활성화 매개변수를 사용하며 SQAI의 LLaVA-1.5-7B를 1.9% 초과합니다. MoE-LLaVA의 희박한 구조로 인해 IDEFICS-80B를 완전히 능가하려면 2.6B 활성화 매개변수만 필요하다는 점은 주목할 가치가 있습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 4 9개 벤치마크에서 MoE-LLaVA의 성능}

또한 연구팀은 최근 소형 시각 언어 모델인 TinyGPT-V, MoE-LLaVA-1.8B에도 주목했습니다. × 4는 유사한 활성화 매개변수 하에서 GQA 및 VisWiz에서 각각 27.5% 및 10%만큼 TinyGPT-V를 초과하며, 이는 자연 시력에 대한 MoE-LLaVA의 강력한 이해 능력을 나타냅니다.

본 연구에서는 MoE-LLaVA의 다중 모드 이해 능력을 보다 종합적으로 검증하기 위해 4가지 벤치마크 툴킷에서 모델 성능을 평가했습니다. 벤치마크 툴킷은 모델이 자연어로 질문에 답할 수 있는지 확인하기 위한 툴킷입니다. 일반적으로 답변은 공개되어 있으며 고정된 템플릿이 없습니다. 그림 4에서 볼 수 있듯이 MoE-LLaVA-1.8B×4는 더 큰 이미지 해상도를 사용하는 Qwen-VL보다 성능이 뛰어납니다. 이러한 결과는 희소 모델인 MoE-LLaVA가 더 적은 활성화 매개변수를 사용하여 밀도 모델과 비슷하거나 심지어 이를 초과하는 성능을 달성할 수 있음을 보여줍니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 5 환상 물체 감지에 대한 MoE-LLaVA 성능 평가}

이 연구에서는 POPE 평가 파이프라인을 사용하여 MoE-LLaVA의 물체 환상을 검증합니다. 결과는 그림 5에 나와 있습니다. MoE-LLaVA는 최고의 성능을 나타냅니다. 이는 MoE-LLaVA가 주어진 이미지와 일치하는 개체를 생성하는 경향이 있음을 의미합니다. 특히 MoE-LLaVA-1.8B×4는 활성화 매개변수 2.2B로 LLaVA를 능가했습니다. 또한 연구팀은 MoE-LLaVA의 yes 비율이 상대적으로 균형 잡힌 상태에 있음을 관찰했는데, 이는 희소 모델 MoE-LLaVA가 문제를 기반으로 정확한 피드백을 할 수 있음을 보여줍니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 6 전문가 부하 시각화}

그림 6은 ScienceQA의 MoE-LLaVA-2.7B×4-Top2 전문가 부하를 보여줍니다. 전반적으로 훈련 초기화 동안 모든 MoE 계층의 전문가 로드는 상대적으로 균형을 이룹니다. 그러나 모델이 점차 희소화되면서 레이어 17~27에 대한 전문가의 부하가 갑자기 증가하고 심지어 거의 모든 토큰을 포괄합니다. 얕은 레이어 5~11의 경우 전문가 2, 3, 4가 주로 함께 작업합니다. 전문가 1은 거의 레이어 1-3에서만 작동하며 모델이 깊어짐에 따라 작업에서 점차적으로 제외된다는 점은 주목할 가치가 있습니다. 따라서 MoE-LLaVA 전문가들은 특정 규칙에 따라 전문가의 업무 분업을 가능하게 하는 특정 패턴을 학습했습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 7 모달 분포 시각화}

그림 7은 다양한 전문가의 모달 분포를 보여줍니다. 연구 결과, 텍스트와 이미지의 라우팅 분포가 매우 유사한 것으로 나타났습니다. 예를 들어 전문가 3이 레이어 17~27에서 열심히 작업하면 처리되는 텍스트와 이미지의 비율이 유사합니다. 이는 MoE-LLaVA가 양식에 대한 명확한 선호가 없음을 보여줍니다.

이 연구는 또한 토큰 수준에서 전문가의 행동을 관찰하고 다운스트림 작업에서 희소 네트워크에 있는 모든 토큰의 궤적을 추적했습니다. 텍스트와 이미지의 모든 활성화된 경로에 대해 본 연구에서는 그림 8과 같이 PCA를 사용하여 차원을 줄여 주요 10개 경로를 얻었습니다. 연구팀은 보이지 않는 텍스트 토큰이나 이미지 토큰의 경우 MoE-LLaVA는 모델의 깊이를 처리하기 위해 항상 전문가 2, 3을 파견하는 것을 선호한다는 사실을 발견했습니다. 전문가 1과 4는 초기화된 토큰을 다루는 경향이 있습니다. 이러한 결과는 다중 모드 학습에서 희소 모델의 동작을 더 잘 이해하고 알려지지 않은 가능성을 탐색하는 데 도움이 될 수 있습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

^{그림 8 활성화 경로 시각화}

위 내용은 다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.