중국어와 영어에서 가장 권위 있는 두 목록을 이끄는 이카푸 선생님이 멀티모달 대형 모델답안지를 제출했습니다!
첫 오픈소스 대형 모델인 Yi-34B와 Yi-6B가 출시된 지 3개월도 채 되지 않았습니다.
모델명은 Yi Vision Language(Yi-VL)이며, 이제 공식적으로 전 세계에 오픈소스화되었습니다.
둘 다 Yi 시리즈에 속하며
Yi-VL-34B 및 Yi-VL-6B의 두 가지 버전도 있습니다.
그래픽 대화와 같은 다양한 시나리오에서 Yi-VL의 성능을 경험하기 위해 먼저 두 가지 예를 살펴보겠습니다.
Yi-VL은 내용을 설명할 뿐만 아니라 전체 그림을 자세히 분석했습니다. "천장"이 관리됩니다.
중국어로도 Yi-VL은 다음과 같이 명확하고 정확하게 표현할 수 있습니다.
또한 공식 테스트 결과도 나와 있습니다.
Yi-VL-34B는 영어 데이터 세트 MMMU에서 41.6%의 정확도를 가지며, 이는 일련의 다중 모드 대형 모델을 능가하는 55.7%의 정확도로 GPT-4V에 이어 두 번째입니다.
중국 데이터 세트 CMMMU에서 Yi-VL-34B의 정확도는 36.5%로, 이는 현재 최첨단 오픈 소스 다중 모드 모델보다 앞서 있습니다.
Yi-VL은 Yi 언어 모델을 기반으로 개발되었습니다. 좋은 다중 모드 시각적 언어 모델을 얻으려면 그림을 정렬하기만 하면 됩니다. Yi-VL 모델의 핵심 하이라이트 중 하나입니다.
아키텍처 디자인에서 Yi-VL 모델은 오픈 소스 LLaVA 아키텍처를 기반으로 하며 세 가지 주요 모듈을 포함합니다.
훈련 방법
에서는 Yi-VL 모델의 훈련 과정이 3단계로 나누어져 시각적 측면의 종합적인 향상을 목표로 합니다. 모델 언어 처리 능력의 시각적 품질.첫 번째 단계에서는 1억 개의 "이미지-텍스트" 쌍 데이터 세트를 사용하여 ViT 및 프로젝션 모듈을 교육합니다.
이 단계에서는 이미지 해상도가 224x224로 설정되어 특정 아키텍처에서 ViT의 지식 획득 기능을 향상시키는 동시에 대규모 언어 모델과의 효율적인 정렬을 달성합니다. 두 번째 단계에서는 ViT의 이미지 해상도가 448x448로 증가하여 모델이 복잡한 시각적 세부 사항을 더 잘 인식할 수 있게 됩니다. 이 단계에서는 약 2,500만 개의 "이미지-텍스트" 쌍이 사용됩니다. 세 번째 단계에서는 다중 모드 채팅 상호 작용에서 모델의 성능을 향상시키는 것을 목표로 전체 모델의 매개 변수가 훈련을 위해 공개됩니다. 훈련 데이터는 총 약 100만 개의 "이미지-텍스트" 쌍을 포함한 다양한 데이터 소스를 다루며 데이터의 폭과 균형을 보장합니다. Zero-One Everything 기술팀은 BLIP, Flamingo, EVA 등. 텍스트 대화를 위한 다중 모드 그래픽 텍스트 모델입니다. Yi 시리즈 모델은 다중 모달 모델의 기본 언어 모델로 사용되어 오픈 소스 커뮤니티에 새로운 옵션을 제공할 수 있습니다. 동시에, zero-one-things 다중 모달 팀은 GPT-4V에 더 빠르게 접근 및 능가하고 세계 최초의 계층 수준에 도달하기 위해 처음부터 다중 모달 사전 훈련을 탐색하고 있습니다.현재 Yi-VL 모델은 Hugging Face, ModelScope 등의 플랫폼에 공개되어 있으며, 사용자는 그래픽, 텍스트 대화 등 다양한 시나리오에서 이 모델의 성능을 직접 경험할 수 있습니다.
새로운 멀티모달 벤치마크 MMMU에서는 Yi-VL-34B와 Yi-VL-6B 두 버전 모두 좋은 성능을 보였습니다.
MMMU(전체 이름: Massive Multi-discipline Multi-modal Understanding & Reasoning)데이터 세트에는 6개 핵심 분야(예술 및 디자인, 비즈니스, 과학, 보건 및 의학, 인문학 및 사회 과학, 기술 및 엔지니어링) 고도로 이질적인 이미지 유형과 서로 얽힌 텍스트-이미지 정보와 관련된 문제는 모델의 고급 인식 및 추론 능력에 대한 요구가 매우 높습니다.
그리고 Yi-VL-34B는 이 테스트 세트에서 41.6%의 정확도로 일련의 다중 모드 대형 모델을 성공적으로 능가했으며, 이는 GPT-4V(55.7%)에 이어 두 번째로 강력한 능력을 보여주었습니다. 학제간 지식을 이해하고 적용합니다.
마찬가지로 중국 장면을 위해 생성된 CMMMU 데이터 세트에서 Yi-VL 모델은 "중국인을 더 잘 이해한다"는 독특한 장점을 보여줍니다.
CMMMU에는 대학 시험, 퀴즈, 교과서에서 파생된 약 12,000개의 중국어 복합 문제가 포함되어 있습니다.
그 중 GPT-4V는 이 테스트 세트에서 43.7%의 정확도를 보였으며, 그 뒤를 이어 Yi-VL-34B가 36.5%의 정확도를 보여 현재 최첨단 오픈소스 멀티모달보다 앞서 있습니다. 모델.
프로젝트 주소:
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai
위 내용은 이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!