>기술 주변기기 >일체 포함 >이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

WBOY
WBOY앞으로
2024-01-25 11:09:051116검색

중국어와 영어에서 가장 권위 있는 두 목록을 이끄는 이카푸 선생님이 멀티모달 대형 모델답안지를 제출했습니다!

첫 오픈소스 대형 모델인 Yi-34B와 Yi-6B가 출시된 지 3개월도 채 되지 않았습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

모델명은 Yi Vision Language(Yi-VL)이며, 이제 공식적으로 전 세계에 오픈소스화되었습니다.

둘 다 Yi 시리즈에 속하며

Yi-VL-34B 및 Yi-VL-6B의 두 가지 버전도 있습니다.

그래픽 대화와 같은 다양한 시나리오에서 Yi-VL의 성능을 경험하기 위해 먼저 두 가지 예를 살펴보겠습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 내용을 설명할 뿐만 아니라 전체 그림을 자세히 분석했습니다. "천장"이 관리됩니다.

중국어로도 Yi-VL은 다음과 같이 명확하고 정확하게 표현할 수 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

또한 공식 테스트 결과도 나와 있습니다.

Yi-VL-34B는 영어 데이터 세트 MMMU에서 41.6%의 정확도를 가지며, 이는 일련의 다중 모드 대형 모델을 능가하는 55.7%의 정확도로 GPT-4V에 이어 두 번째입니다.

중국 데이터 세트 CMMMU에서 Yi-VL-34B의 정확도는 36.5%로, 이는 현재 최첨단 오픈 소스 다중 모드 모델보다 앞서 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 어떤 모습인가요?

Yi-VL은 Yi 언어 모델을 기반으로 개발되었습니다. 좋은 다중 모드 시각적 언어 모델을 얻으려면 그림을 정렬하기만 하면 됩니다. Yi-VL 모델의 핵심 하이라이트 중 하나입니다.

아키텍처 디자인에서 Yi-VL 모델은 오픈 소스 LLaVA 아키텍처를 기반으로 하며 세 가지 주요 모듈을 포함합니다.

  • Vision Transformer(ViT라고 함) 오픈 소스 OpenClip ViT를 사용하는 이미지 인코딩용 -H/14 모델 학습 가능한 매개변수를 초기화하고 대규모 "이미지-텍스트" 쌍에서 특징을 추출하는 방법을 학습하여 모델에 이미지를 처리하고 이해하는 기능을 제공합니다.
  • Projection 모듈은 이미지 특징과 텍스트 특징을 모델에 공간적으로 정렬하는 기능을 제공합니다. 이 모듈은 레이어 정규화를 포함하는 MLP(다층 퍼셉트론) 로 구성됩니다. 이 설계를 통해 모델은 시각적 정보와 텍스트 정보를 보다 효과적으로 융합하고 처리할 수 있어 다중 모드 이해 및 생성의 정확성이 향상됩니다. Yi-34B-Chat 및 Yi-6B-Chat 대규모 언어 모델의 도입으로 Yi-VL은 강력한 언어 이해 및 생성 기능을 제공합니다. 모델의 이 부분은 고급 자연어 처리 기술을 사용하여 Yi-VL이 복잡한 언어 구조를 깊이 이해하고 일관되고 관련성 있는 텍스트 출력을 생성하도록 돕습니다.
Δ그림: Yi-VL 모델 아키텍처 설계 및 훈련 방법 프로세스 개요이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

훈련 방법

에서는 Yi-VL 모델의 훈련 과정이 3단계로 나누어져 시각적 측면의 종합적인 향상을 목표로 합니다. 모델 언어 처리 능력의 시각적 품질.

첫 번째 단계에서는 1억 개의 "이미지-텍스트" 쌍 데이터 세트를 사용하여 ViT 및 프로젝션 모듈을 교육합니다.

이 단계에서는 이미지 해상도가 224x224로 설정되어 특정 아키텍처에서 ViT의 지식 획득 기능을 향상시키는 동시에 대규모 언어 모델과의 효율적인 정렬을 달성합니다.

두 번째 단계에서는 ViT의 이미지 해상도가 448x448로 증가하여 모델이 복잡한 시각적 세부 사항을 더 잘 인식할 수 있게 됩니다. 이 단계에서는 약 2,500만 개의 "이미지-텍스트" 쌍이 사용됩니다.

세 번째 단계에서는 다중 모드 채팅 상호 작용에서 모델의 성능을 향상시키는 것을 목표로 전체 모델의 매개 변수가 훈련을 위해 공개됩니다. 훈련 데이터는 총 약 100만 개의 "이미지-텍스트" 쌍을 포함한 다양한 데이터 소스를 다루며 데이터의 폭과 균형을 보장합니다.

Zero-One Everything 기술팀은 BLIP, Flamingo, EVA 등. 텍스트 대화를 위한 다중 모드 그래픽 텍스트 모델입니다.

Yi 시리즈 모델은 다중 모달 모델의 기본 언어 모델로 사용되어 오픈 소스 커뮤니티에 새로운 옵션을 제공할 수 있습니다. 동시에, zero-one-things 다중 모달 팀은 GPT-4V에 더 빠르게 접근 및 능가하고 세계 최초의 계층 수준에 도달하기 위해 처음부터 다중 모달 사전 훈련을 탐색하고 있습니다.

현재 Yi-VL 모델은 Hugging Face, ModelScope 등의 플랫폼에 공개되어 있으며, 사용자는 그래픽, 텍스트 대화 등 다양한 시나리오에서 이 모델의 성능을 직접 경험할 수 있습니다.

멀티모달 대형 모델 시리즈를 넘어

새로운 멀티모달 벤치마크 MMMU에서는 Yi-VL-34B와 Yi-VL-6B 두 버전 모두 좋은 성능을 보였습니다.

MMMU(전체 이름: Massive Multi-discipline Multi-modal Understanding & Reasoning)데이터 세트에는 6개 핵심 분야(예술 및 디자인, 비즈니스, 과학, 보건 및 의학, 인문학 및 사회 과학, 기술 및 엔지니어링) 고도로 이질적인 이미지 유형과 서로 얽힌 텍스트-이미지 정보와 관련된 문제는 모델의 고급 인식 및 추론 능력에 대한 요구가 매우 높습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그리고 Yi-VL-34B는 이 테스트 세트에서 41.6%의 정확도로 일련의 다중 모드 대형 모델을 성공적으로 능가했으며, 이는 GPT-4V(55.7%)에 이어 두 번째로 강력한 능력을 보여주었습니다. 학제간 지식을 이해하고 적용합니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

마찬가지로 중국 장면을 위해 생성된 CMMMU 데이터 세트에서 Yi-VL 모델은 "중국인을 더 잘 이해한다"는 독특한 장점을 보여줍니다.

CMMMU에는 대학 시험, 퀴즈, 교과서에서 파생된 약 12,000개의 중국어 복합 문제가 포함되어 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그 중 GPT-4V는 이 테스트 세트에서 43.7%의 정확도를 보였으며, 그 뒤를 이어 Yi-VL-34B가 36.5%의 정확도를 보여 현재 최첨단 오픈소스 멀티모달보다 앞서 있습니다. 모델.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

프로젝트 주소:
[1]https://huggingface.co/01-ai

[2]https://www.modelscope.cn/organization/01ai

위 내용은 이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제