이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 25, 2024 am 11:09 AM

모델기차

중국어와 영어에서 가장 권위 있는 두 목록을 이끄는 이카푸 선생님이 멀티모달 대형 모델답안지를 제출했습니다!

첫 오픈소스 대형 모델인 Yi-34B와 Yi-6B가 출시된 지 3개월도 채 되지 않았습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

모델명은 Yi Vision Language(Yi-VL)이며, 이제 공식적으로 전 세계에 오픈소스화되었습니다.

둘 다 Yi 시리즈에 속하며

Yi-VL-34B 및 Yi-VL-6B의 두 가지 버전도 있습니다.

그래픽 대화와 같은 다양한 시나리오에서 Yi-VL의 성능을 경험하기 위해 먼저 두 가지 예를 살펴보겠습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 내용을 설명할 뿐만 아니라 전체 그림을 자세히 분석했습니다. "천장"이 관리됩니다.

중국어로도 Yi-VL은 다음과 같이 명확하고 정확하게 표현할 수 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

또한 공식 테스트 결과도 나와 있습니다.

Yi-VL-34B는 영어 데이터 세트 MMMU에서 41.6%의 정확도를 가지며, 이는 일련의 다중 모드 대형 모델을 능가하는 55.7%의 정확도로 GPT-4V에 이어 두 번째입니다.

중국 데이터 세트 CMMMU에서 Yi-VL-34B의 정확도는 36.5%로, 이는 현재 최첨단 오픈 소스 다중 모드 모델보다 앞서 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 어떤 모습인가요?

Yi-VL은 Yi 언어 모델을 기반으로 개발되었습니다. 좋은 다중 모드 시각적 언어 모델을 얻으려면 그림을 정렬하기만 하면 됩니다. Yi-VL 모델의 핵심 하이라이트 중 하나입니다.

아키텍처 디자인에서 Yi-VL 모델은 오픈 소스 LLaVA 아키텍처를 기반으로 하며 세 가지 주요 모듈을 포함합니다.

Vision Transformer(ViT라고 함) 오픈 소스 OpenClip ViT를 사용하는 이미지 인코딩용 -H/14 모델 학습 가능한 매개변수를 초기화하고 대규모 "이미지-텍스트" 쌍에서 특징을 추출하는 방법을 학습하여 모델에 이미지를 처리하고 이해하는 기능을 제공합니다.
Projection 모듈은 이미지 특징과 텍스트 특징을 모델에 공간적으로 정렬하는 기능을 제공합니다. 이 모듈은 레이어 정규화를 포함하는 MLP(다층 퍼셉트론) 로 구성됩니다. 이 설계를 통해 모델은 시각적 정보와 텍스트 정보를 보다 효과적으로 융합하고 처리할 수 있어 다중 모드 이해 및 생성의 정확성이 향상됩니다. Yi-34B-Chat 및 Yi-6B-Chat 대규모 언어 모델의 도입으로 Yi-VL은 강력한 언어 이해 및 생성 기능을 제공합니다. 모델의 이 부분은 고급 자연어 처리 기술을 사용하여 Yi-VL이 복잡한 언어 구조를 깊이 이해하고 일관되고 관련성 있는 텍스트 출력을 생성하도록 돕습니다.

Δ그림: Yi-VL 모델 아키텍처 설계 및 훈련 방법 프로세스 개요

훈련 방법

에서는 Yi-VL 모델의 훈련 과정이 3단계로 나누어져 시각적 측면의 종합적인 향상을 목표로 합니다. 모델 언어 처리 능력의 시각적 품질.

첫 번째 단계에서는 1억 개의 "이미지-텍스트" 쌍 데이터 세트를 사용하여 ViT 및 프로젝션 모듈을 교육합니다.

이 단계에서는 이미지 해상도가 224x224로 설정되어 특정 아키텍처에서 ViT의 지식 획득 기능을 향상시키는 동시에 대규모 언어 모델과의 효율적인 정렬을 달성합니다.

두 번째 단계에서는 ViT의 이미지 해상도가 448x448로 증가하여 모델이 복잡한 시각적 세부 사항을 더 잘 인식할 수 있게 됩니다. 이 단계에서는 약 2,500만 개의 "이미지-텍스트" 쌍이 사용됩니다.

세 번째 단계에서는 다중 모드 채팅 상호 작용에서 모델의 성능을 향상시키는 것을 목표로 전체 모델의 매개 변수가 훈련을 위해 공개됩니다. 훈련 데이터는 총 약 100만 개의 "이미지-텍스트" 쌍을 포함한 다양한 데이터 소스를 다루며 데이터의 폭과 균형을 보장합니다.

Zero-One Everything 기술팀은 BLIP, Flamingo, EVA 등. 텍스트 대화를 위한 다중 모드 그래픽 텍스트 모델입니다.

Yi 시리즈 모델은 다중 모달 모델의 기본 언어 모델로 사용되어 오픈 소스 커뮤니티에 새로운 옵션을 제공할 수 있습니다. 동시에, zero-one-things 다중 모달 팀은 GPT-4V에 더 빠르게 접근 및 능가하고 세계 최초의 계층 수준에 도달하기 위해 처음부터 다중 모달 사전 훈련을 탐색하고 있습니다.

현재 Yi-VL 모델은 Hugging Face, ModelScope 등의 플랫폼에 공개되어 있으며, 사용자는 그래픽, 텍스트 대화 등 다양한 시나리오에서 이 모델의 성능을 직접 경험할 수 있습니다.

멀티모달 대형 모델 시리즈를 넘어

새로운 멀티모달 벤치마크 MMMU에서는 Yi-VL-34B와 Yi-VL-6B 두 버전 모두 좋은 성능을 보였습니다.

MMMU(전체 이름: Massive Multi-discipline Multi-modal Understanding & Reasoning)데이터 세트에는 6개 핵심 분야(예술 및 디자인, 비즈니스, 과학, 보건 및 의학, 인문학 및 사회 과학, 기술 및 엔지니어링) 고도로 이질적인 이미지 유형과 서로 얽힌 텍스트-이미지 정보와 관련된 문제는 모델의 고급 인식 및 추론 능력에 대한 요구가 매우 높습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그리고 Yi-VL-34B는 이 테스트 세트에서 41.6%의 정확도로 일련의 다중 모드 대형 모델을 성공적으로 능가했으며, 이는 GPT-4V(55.7%)에 이어 두 번째로 강력한 능력을 보여주었습니다. 학제간 지식을 이해하고 적용합니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

마찬가지로 중국 장면을 위해 생성된 CMMMU 데이터 세트에서 Yi-VL 모델은 "중국인을 더 잘 이해한다"는 독특한 장점을 보여줍니다.

CMMMU에는 대학 시험, 퀴즈, 교과서에서 파생된 약 12,000개의 중국어 복합 문제가 포함되어 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그 중 GPT-4V는 이 테스트 세트에서 43.7%의 정확도를 보였으며, 그 뒤를 이어 Yi-VL-34B가 36.5%의 정확도를 보여 현재 최첨단 오픈소스 멀티모달보다 앞서 있습니다. 모델.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

프로젝트 주소:
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai

위 내용은 이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다