찾다
기술 주변기기일체 포함이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

중국어와 영어에서 가장 권위 있는 두 목록을 이끄는 이카푸 선생님이 멀티모달 대형 모델답안지를 제출했습니다!

첫 오픈소스 대형 모델인 Yi-34B와 Yi-6B가 출시된 지 3개월도 채 되지 않았습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

모델명은 Yi Vision Language(Yi-VL)이며, 이제 공식적으로 전 세계에 오픈소스화되었습니다.

둘 다 Yi 시리즈에 속하며

Yi-VL-34B 및 Yi-VL-6B의 두 가지 버전도 있습니다.

그래픽 대화와 같은 다양한 시나리오에서 Yi-VL의 성능을 경험하기 위해 먼저 두 가지 예를 살펴보겠습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 내용을 설명할 뿐만 아니라 전체 그림을 자세히 분석했습니다. "천장"이 관리됩니다.

중국어로도 Yi-VL은 다음과 같이 명확하고 정확하게 표현할 수 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

또한 공식 테스트 결과도 나와 있습니다.

Yi-VL-34B는 영어 데이터 세트 MMMU에서 41.6%의 정확도를 가지며, 이는 일련의 다중 모드 대형 모델을 능가하는 55.7%의 정확도로 GPT-4V에 이어 두 번째입니다.

중국 데이터 세트 CMMMU에서 Yi-VL-34B의 정확도는 36.5%로, 이는 현재 최첨단 오픈 소스 다중 모드 모델보다 앞서 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

Yi-VL은 어떤 모습인가요?

Yi-VL은 Yi 언어 모델을 기반으로 개발되었습니다. 좋은 다중 모드 시각적 언어 모델을 얻으려면 그림을 정렬하기만 하면 됩니다. Yi-VL 모델의 핵심 하이라이트 중 하나입니다.

아키텍처 디자인에서 Yi-VL 모델은 오픈 소스 LLaVA 아키텍처를 기반으로 하며 세 가지 주요 모듈을 포함합니다.

  • Vision Transformer(ViT라고 함) 오픈 소스 OpenClip ViT를 사용하는 이미지 인코딩용 -H/14 모델 학습 가능한 매개변수를 초기화하고 대규모 "이미지-텍스트" 쌍에서 특징을 추출하는 방법을 학습하여 모델에 이미지를 처리하고 이해하는 기능을 제공합니다.
  • Projection 모듈은 이미지 특징과 텍스트 특징을 모델에 공간적으로 정렬하는 기능을 제공합니다. 이 모듈은 레이어 정규화를 포함하는 MLP(다층 퍼셉트론) 로 구성됩니다. 이 설계를 통해 모델은 시각적 정보와 텍스트 정보를 보다 효과적으로 융합하고 처리할 수 있어 다중 모드 이해 및 생성의 정확성이 향상됩니다. Yi-34B-Chat 및 Yi-6B-Chat 대규모 언어 모델의 도입으로 Yi-VL은 강력한 언어 이해 및 생성 기능을 제공합니다. 모델의 이 부분은 고급 자연어 처리 기술을 사용하여 Yi-VL이 복잡한 언어 구조를 깊이 이해하고 일관되고 관련성 있는 텍스트 출력을 생성하도록 돕습니다.
Δ그림: Yi-VL 모델 아키텍처 설계 및 훈련 방법 프로세스 개요이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

훈련 방법

에서는 Yi-VL 모델의 훈련 과정이 3단계로 나누어져 시각적 측면의 종합적인 향상을 목표로 합니다. 모델 언어 처리 능력의 시각적 품질.

첫 번째 단계에서는 1억 개의 "이미지-텍스트" 쌍 데이터 세트를 사용하여 ViT 및 프로젝션 모듈을 교육합니다.

이 단계에서는 이미지 해상도가 224x224로 설정되어 특정 아키텍처에서 ViT의 지식 획득 기능을 향상시키는 동시에 대규모 언어 모델과의 효율적인 정렬을 달성합니다.

두 번째 단계에서는 ViT의 이미지 해상도가 448x448로 증가하여 모델이 복잡한 시각적 세부 사항을 더 잘 인식할 수 있게 됩니다. 이 단계에서는 약 2,500만 개의 "이미지-텍스트" 쌍이 사용됩니다.

세 번째 단계에서는 다중 모드 채팅 상호 작용에서 모델의 성능을 향상시키는 것을 목표로 전체 모델의 매개 변수가 훈련을 위해 공개됩니다. 훈련 데이터는 총 약 100만 개의 "이미지-텍스트" 쌍을 포함한 다양한 데이터 소스를 다루며 데이터의 폭과 균형을 보장합니다.

Zero-One Everything 기술팀은 BLIP, Flamingo, EVA 등. 텍스트 대화를 위한 다중 모드 그래픽 텍스트 모델입니다.

Yi 시리즈 모델은 다중 모달 모델의 기본 언어 모델로 사용되어 오픈 소스 커뮤니티에 새로운 옵션을 제공할 수 있습니다. 동시에, zero-one-things 다중 모달 팀은 GPT-4V에 더 빠르게 접근 및 능가하고 세계 최초의 계층 수준에 도달하기 위해 처음부터 다중 모달 사전 훈련을 탐색하고 있습니다.

현재 Yi-VL 모델은 Hugging Face, ModelScope 등의 플랫폼에 공개되어 있으며, 사용자는 그래픽, 텍스트 대화 등 다양한 시나리오에서 이 모델의 성능을 직접 경험할 수 있습니다.

멀티모달 대형 모델 시리즈를 넘어

새로운 멀티모달 벤치마크 MMMU에서는 Yi-VL-34B와 Yi-VL-6B 두 버전 모두 좋은 성능을 보였습니다.

MMMU(전체 이름: Massive Multi-discipline Multi-modal Understanding & Reasoning)데이터 세트에는 6개 핵심 분야(예술 및 디자인, 비즈니스, 과학, 보건 및 의학, 인문학 및 사회 과학, 기술 및 엔지니어링) 고도로 이질적인 이미지 유형과 서로 얽힌 텍스트-이미지 정보와 관련된 문제는 모델의 고급 인식 및 추론 능력에 대한 요구가 매우 높습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그리고 Yi-VL-34B는 이 테스트 세트에서 41.6%의 정확도로 일련의 다중 모드 대형 모델을 성공적으로 능가했으며, 이는 GPT-4V(55.7%)에 이어 두 번째로 강력한 능력을 보여주었습니다. 학제간 지식을 이해하고 적용합니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

마찬가지로 중국 장면을 위해 생성된 CMMMU 데이터 세트에서 Yi-VL 모델은 "중국인을 더 잘 이해한다"는 독특한 장점을 보여줍니다.

CMMMU에는 대학 시험, 퀴즈, 교과서에서 파생된 약 12,000개의 중국어 복합 문제가 포함되어 있습니다.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

그 중 GPT-4V는 이 테스트 세트에서 43.7%의 정확도를 보였으며, 그 뒤를 이어 Yi-VL-34B가 36.5%의 정확도를 보여 현재 최첨단 오픈소스 멀티모달보다 앞서 있습니다. 모델.

이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.

프로젝트 주소:
[1]https://huggingface.co/01-ai

[2]https://www.modelscope.cn/organization/01ai

위 내용은 이카푸 대표는 세계적 수준의 오픈소스 멀티모달 대형 모델을 출시한 제로원위시(Zero One Wish)에 참가했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)