>  기사  >  기술 주변기기  >  다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

WBOY
WBOY앞으로
2024-02-01 17:15:231052검색

대규모 시각적 언어 모델(LVLM)은 모델을 확장하여 성능을 향상시킬 수 있습니다. 그러나 매개변수 크기를 늘리면 각 토큰의 계산이 모든 모델 매개변수를 활성화하므로 훈련 및 추론 비용이 증가합니다.

북경 대학교, 쑨원 대학교 및 기타 기관의 연구원들은 다중 모달 학습 및 모델 희소성과 관련된 성능 저하 문제를 해결하기 위해 MoE-Tuning이라는 새로운 훈련 전략을 공동으로 제안했습니다. MoE-Tuning은 놀라운 수의 매개변수를 사용하지만 일정한 계산 비용을 사용하여 희소 모델을 구축할 수 있습니다. 또한 연구원들은 MoE-LLaVA 프레임워크라고 불리는 MoE 기반의 새로운 희소 LVLM 아키텍처도 제안했습니다. 이 프레임워크에서는 라우팅 알고리즘을 통해 상위 k명의 전문가만 활성화되고 나머지 전문가는 비활성 상태로 유지됩니다. 이러한 방식으로 MoE-LLaVA 프레임워크는 배포 프로세스 중에 전문가 네트워크의 리소스를 보다 효율적으로 활용할 수 있습니다. 이러한 연구 결과는 LVLM 모델의 다중 모드 학습 및 모델 희소성 문제를 해결하기 위한 새로운 솔루션을 제공합니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

  • 논문 주소: https://arxiv.org/abs/2401.15947

  • 프로젝트 주소: https://github.com/PKU-YuanGroup/MoE-LLaVA

  • 데모 주소: https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

  • 논문 제목: MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA에는 3B 희소 활성화 매개변수, 성능만 있습니다. 그러나 다양한 시각적 이해 데이터 세트에서는 LLaVA-1.5-7B와 동일하며, 객체 환상 벤치마크 테스트에서는 LLaVA-1.5-13B를 능가하기도 합니다. MoE-LLaVA를 통해 이 연구는 희소 LVLM에 대한 벤치마크를 확립하고 보다 효율적이고 효과적인 다중 모드 학습 시스템을 개발하기 위한 향후 연구에 귀중한 통찰력을 제공하는 것을 목표로 합니다. MoE-LLaVA 팀은 모든 데이터, 코드 및 모델을 공개했습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 1 MoE-LLaVA와 다른 LVLM의 환각 성능 비교

방법 소개

MoE-LLaVA는 무대 훈련 전략. 그림 2에서 볼 수 있듯이 비전 인코더는 입력 이미지를 처리하여 시각적 토큰 시퀀스를 얻습니다. 투영 레이어는 시각적 토큰을 LLM이 허용하는 차원으로 매핑하는 데 사용됩니다. 마찬가지로, 이미지와 쌍을 이루는 텍스트는 단어 임베딩 레이어를 통해 투영되어 시퀀스 텍스트 토큰을 얻습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

1단계: 그림 2에 표시된 것처럼 1단계의 목표는 시각적 토큰을 LLM에 적용하고 LLM에 그림의 엔터티를 이해할 수 있는 기능을 제공하는 것입니다. MoE-LLaVA는 MLP를 사용하여 이미지 토큰을 LLM의 입력 도메인에 투영합니다. 이는 작은 이미지 패치가 LLM에 의해 의사 텍스트 토큰으로 처리된다는 것을 의미합니다. 이 단계에서 LLM은 이미지를 설명하고 더 높은 수준의 이미지 의미를 이해하도록 훈련됩니다. 이 단계에서는 MoE 레이어가 LVLM에 적용되지 않습니다.
그림 3 보다 구체적인 훈련 프레임워크 및 훈련 전략

2단계: 다중 모드 명령 데이터를 사용하여 미세 조정하는 것은 대형 모델의 기능과 제어 가능성을 향상시키는 핵심 기술이며, 현 단계에서는 LLM LVLM은 다중 모드 이해를 위해 조정되었습니다. 이 단계에서 연구는 그림 논리적 추론 및 텍스트 인식과 같은 고급 작업을 포함하여 보다 복잡한 지침을 추가하며, 이를 위해서는 모델에 더 강력한 다중 모드 이해 기능이 필요합니다. 일반적으로 Dense 모델의 LVLM은 이 시점에서 훈련됩니다. 그러나 연구팀은 LLM을 LVLM으로 변환하는 동시에 모델을 Sparsing하는 것이 어렵다는 것을 발견했습니다. 따라서 MoE-LLaVA에서는 희소 모델 학습의 어려움을 줄이기 위해 두 번째 단계의 가중치를 세 번째 단계의 초기화로 사용합니다.

3단계: MoE-LLaVA는 FFN의 여러 사본을 전문가 세트의 초기화 가중치로 복사합니다. 시각적 토큰과 텍스트 토큰이 MoE 계층에 공급되면 라우터는 각 토큰과 전문가의 일치 가중치를 계산한 다음 각 토큰은 처리를 위해 가장 일치하는 상위 k 전문가에게 전송됩니다. 라우터의 가중치 가중치 합계가 출력에 집계됩니다. Top-k 전문가가 활성화되면 나머지 전문가는 비활성 상태로 유지되며 이 모델은 가능한 희소 경로가 무한한 MoE-LLaVA를 구성합니다.

Experiment

그림 4에서 볼 수 있듯이 MoE-LLaVA는 소프트 라우터가 장착된 LVLM 기반의 최초의 Sparse 모델이므로 본 연구에서는 이전 모델을 Dense 모델로 정리합니다. 연구팀은 5개의 이미지 질의응답 벤치마크에서 MoE-LLaVA의 성능을 검증하고, 활성화된 매개변수의 양과 이미지 해상도를 보고했다. SOTA 방법 LLaVA-1.5와 비교하여 MoE-LLaVA-2.7B×4는 강력한 이미지 이해 기능을 보여 주며 5개 벤치마크에서 성능이 LLaVA-1.5에 매우 가깝습니다. 그중 MoE-LLaVA는 3.6B 희소 활성화 매개변수를 사용하며 SQAI의 LLaVA-1.5-7B를 1.9% 초과합니다. MoE-LLaVA의 희박한 구조로 인해 IDEFICS-80B를 완전히 능가하려면 2.6B 활성화 매개변수만 필요하다는 점은 주목할 가치가 있습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 4 9개 벤치마크에서 MoE-LLaVA의 성능

또한 연구팀은 최근 소형 시각 언어 모델인 TinyGPT-V, MoE-LLaVA-1.8B에도 주목했습니다. × 4는 유사한 활성화 매개변수 하에서 GQA 및 VisWiz에서 각각 27.5% 및 10%만큼 TinyGPT-V를 초과하며, 이는 자연 시력에 대한 MoE-LLaVA의 강력한 이해 능력을 나타냅니다.

본 연구에서는 MoE-LLaVA의 다중 모드 이해 능력을 보다 종합적으로 검증하기 위해 4가지 벤치마크 툴킷에서 모델 성능을 평가했습니다. 벤치마크 툴킷은 모델이 자연어로 질문에 답할 수 있는지 확인하기 위한 툴킷입니다. 일반적으로 답변은 공개되어 있으며 고정된 템플릿이 없습니다. 그림 4에서 볼 수 있듯이 MoE-LLaVA-1.8B×4는 더 큰 이미지 해상도를 사용하는 Qwen-VL보다 성능이 뛰어납니다. 이러한 결과는 희소 모델인 MoE-LLaVA가 더 적은 활성화 매개변수를 사용하여 밀도 모델과 비슷하거나 심지어 이를 초과하는 성능을 달성할 수 있음을 보여줍니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 5 환상 물체 감지에 대한 MoE-LLaVA 성능 평가

이 연구에서는 POPE 평가 파이프라인을 사용하여 MoE-LLaVA의 물체 환상을 검증합니다. 결과는 그림 5에 나와 있습니다. MoE-LLaVA는 최고의 성능을 나타냅니다. 이는 MoE-LLaVA가 주어진 이미지와 일치하는 개체를 생성하는 경향이 있음을 의미합니다. 특히 MoE-LLaVA-1.8B×4는 활성화 매개변수 2.2B로 LLaVA를 능가했습니다. 또한 연구팀은 MoE-LLaVA의 yes 비율이 상대적으로 균형 잡힌 상태에 있음을 관찰했는데, 이는 희소 모델 MoE-LLaVA가 문제를 기반으로 정확한 피드백을 할 수 있음을 보여줍니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 6 전문가 부하 시각화

그림 6은 ScienceQA의 MoE-LLaVA-2.7B×4-Top2 전문가 부하를 보여줍니다. 전반적으로 훈련 초기화 동안 모든 MoE 계층의 전문가 로드는 상대적으로 균형을 이룹니다. 그러나 모델이 점차 희소화되면서 레이어 17~27에 대한 전문가의 부하가 갑자기 증가하고 심지어 거의 모든 토큰을 포괄합니다. 얕은 레이어 5~11의 경우 전문가 2, 3, 4가 주로 함께 작업합니다. 전문가 1은 거의 레이어 1-3에서만 작동하며 모델이 깊어짐에 따라 작업에서 점차적으로 제외된다는 점은 주목할 가치가 있습니다. 따라서 MoE-LLaVA 전문가들은 특정 규칙에 따라 전문가의 업무 분업을 가능하게 하는 특정 패턴을 학습했습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 7 모달 분포 시각화

그림 7은 다양한 전문가의 모달 분포를 보여줍니다. 연구 결과, 텍스트와 이미지의 라우팅 분포가 매우 유사한 것으로 나타났습니다. 예를 들어 전문가 3이 레이어 17~27에서 열심히 작업하면 처리되는 텍스트와 이미지의 비율이 유사합니다. 이는 MoE-LLaVA가 양식에 대한 명확한 선호가 없음을 보여줍니다.

이 연구는 또한 토큰 수준에서 전문가의 행동을 관찰하고 다운스트림 작업에서 희소 네트워크에 있는 모든 토큰의 궤적을 추적했습니다. 텍스트와 이미지의 모든 활성화된 경로에 대해 본 연구에서는 그림 8과 같이 PCA를 사용하여 차원을 줄여 주요 10개 경로를 얻었습니다. 연구팀은 보이지 않는 텍스트 토큰이나 이미지 토큰의 경우 MoE-LLaVA는 모델의 깊이를 처리하기 위해 항상 전문가 2, 3을 파견하는 것을 선호한다는 사실을 발견했습니다. 전문가 1과 4는 초기화된 토큰을 다루는 경향이 있습니다. 이러한 결과는 다중 모드 학습에서 희소 모델의 동작을 더 잘 이해하고 알려지지 않은 가능성을 탐색하는 데 도움이 될 수 있습니다.

다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.

그림 8 활성화 경로 시각화

위 내용은 다중 모드 대형 모델이 희박하며 3B 모델 MoE-LLaVA는 LLaVA-1.5-7B와 유사합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제