다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 29, 2024 am 09:15 AM

데이터모델

'청소년 최초의 멀티모달 대형 모델' Vary-toy이 나왔습니다!

모델 크기가 2B 미만이고 소비자급 그래픽 카드에서 학습이 가능하며 GTX1080ti 8G 구형 그래픽 카드에서도 쉽게 실행할 수 있습니다.

문서 이미지를 마크다운 형식으로 변환하고 싶으십니까? 과거에는 텍스트 인식, 레이아웃 감지 및 정렬, 수식표 처리, 텍스트 정리 등 여러 단계가 필요했습니다.

이제 하나의 명령만 필요합니다:

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

중국어 또는 영어에 관계없이 사진의 큰 텍스트는 몇 분 안에 추출할 수 있습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

사진의 개체 감지는 여전히 특정 좌표:

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

이 연구는 Megvii, 국립과학기술대학교, 화중대학교 연구진이 공동으로 제안한 것입니다.

보고에 따르면 Vary-toy는 규모는 작지만 LVLM(Large Scale Visual Language Model): 문서 OCR 인식(Document OCR), 시각적 위치 지정(시각적 위치 지정)의 현재 주류 연구의 거의 모든 기능을 다루고 있습니다. 접지) , 이미지 캡션, 시각적 질문 답변 (VQA) .

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

이제 Vary-toy 코드와 모델은 오픈 소스이며 시험 플레이가 가능한 온라인 데모가 있습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

네티즌들은 관심을 표하는 가운데 구·GTX1080에 집중하고 있으며 분위기는

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

"미니어쳐 버전" Vary

사실 Vary 팀은 빠르면 12월에 Vary를 출시했습니다. 지난해 첫 번째 연구 결과는 'Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models'입니다.

연구원들은 치밀한 인식 능력에서 CLIP 시각적 단어 목록의 단점을 지적하고, 간단하고 효과적인 단어 목록 확장 방식을 사용하여 새로운 OCR 패러다임을 제공했습니다.

Vary는 출시 이후 폭넓은 관심을 받았습니다. 현재 Github에 별이 1200개 이상 있지만, 제한된 리소스로 인해 많은 사람들이 실행하지 못하고 있습니다.

오픈소스가 잘 구축되어 있고 성능도 우수한 '소형' VLM이 상대적으로 적은 점을 고려하여, '젊은층 최초의 멀티 모드 대형 모델'로 알려진 Vary-toy를 새롭게 출시했습니다.

Vary에 비해 Vary-toy는 더 작을 뿐만 아니라 더 강력한 시각적 어휘를 훈련합니다. 새로운 어휘는 더 이상 모델을 문서 수준 OCR로 제한하지 않고 보다 보편적이고 포괄적인 시각적 어휘를 제공합니다. 문서 수준 OCR뿐만 아니라 일반적인 시각적 대상 감지도 수행할 수 있습니다.

그럼 이건 어떻게 하는 걸까요?

Vary-toy의 모델 구조와 학습 과정은 아래 그림과 같습니다. 일반적으로 학습은 두 단계로 나누어집니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

첫 번째 단계에서는 Vary-tiny+ 구조를 사용하여 원본 Vary보다 우수한 시각적 어휘를 사전 학습합니다. 새로운 시각적 어휘는 원본 Vary에서만 사용하는 문제를 해결합니다. 문서 수준 OCR의 경우 용량 낭비 문제와 SAM 사전 학습의 장점을 충분히 활용하지 못하는 문제.

그런 다음 두 번째 단계에서는 첫 번째 단계에서 훈련된 시각적 어휘가 다중 작업 훈련/SFT를 위한 최종 구조로 병합됩니다.

우리 모두 알고 있듯이, 포괄적인 기능을 갖춘 VLM을 생성하려면 좋은 데이터 비율이 중요합니다.

그래서 사전 훈련 단계에서 Vary-toy는 5가지 작업 유형의 데이터를 사용하여 대화를 구성했습니다. 데이터 비율과 샘플 프롬프트는 아래 그림과 같습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

SFT 단계에서는 LLaVA만 -80K 데이터가 사용되었습니다. 자세한 기술 내용은 Vary-toy의 기술 보고서를 참조하세요.

실험 테스트 결과

DocVQA, ChartQA, RefCOCO, MMVet의 4가지 벤치마크 테스트에서 Vary-toy의 점수는 다음과 같습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

Vary-toy는 DocVQA에서 65.6% ANLS, ChartQA에서 59.1% 정확도, RefCOCO에서 88.1% 정확도를 달성할 수 있습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

MMVet은 벤치마크 점수 또는 시각화 효과 여부에 관계없이 29% 정확도를 달성할 수 있습니다. , 2B 미만인 Vary-toy는 일부 인기 있는 7B 모델의 성능과도 경쟁할 수 있습니다.

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

프로젝트 링크:
[1]https://arxiv.org/abs/2401.12503
[3]https://varytoy.github.io/

위 내용은 다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 일련의 질문은 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:06 AM

일련의 질문 : 신속한 엔지니어링 혁명 각 질문이 이전의 질문을 기반으로하는 AI와의 대화를 상상해보십시오. 이것은 신속한 엔지니어링에서 일련의 질문 (COQ)의 힘입니다.

Mistral Nemo 액세스 : 기능, 응용 프로그램 및 시사점Apr 17, 2025 am 11:04 AM

Mistral Nemo : 강력한 오픈 소스 다국어 LLM Mistral AI와 Nvidia의 협력 노력 인 Mistral Nemo는 최첨단 자연 자연 언어 처리를 제공하는 최첨단 오픈 소스 대형 언어 모델 (LLM)입니다. 이 12 억 파

Excel의 둥근 함수는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 10:56 AM

정확한 수치 데이터를 위해 Microsoft Excel의 라운드 기능을 마스터합니다 숫자는 스프레드 시트의 기본이지만 정확성과 가독성을 달성하려면 종종 원시 데이터 이상의 것이 필요합니다. Microsoft Excel의 라운드 기능은 TRA를위한 강력한 도구입니다.

llamaindex를 사용한 반사제 안내서Apr 17, 2025 am 10:41 AM

AI 인텔리전스 향상 : llamaindex를 가진 반사 AI 에이전트에 대한 깊은 다이빙 문제를 해결할뿐만 아니라 개선을위한 자체 사고 과정을 반영하는 AI를 상상해보십시오. 이것은 반사 AI 요원의 영역 이며이 기사는 탐구합니다.

랭케인으로 벡터 임베딩을 계산하고 저장하는 방법은 무엇입니까?Apr 17, 2025 am 10:37 AM

향상된 컨텐츠 검색을 위해 Langchain 및 벡터 임베딩을 활용합니다 이전 기사는 쿼리 관련 컨텐츠 추출을위한 데이터로드 및 분할 기술을 다루었습니다. 이 기사는 벡터 임베딩을 사용하여 고급 데이터 검색을 탐구합니다.

2025 년에 데이터 과학 신입생을 고용하는 상위 13 개 회사Apr 17, 2025 am 10:30 AM

데이터 과학 경력 : 2024 년 최고의 회사 및 성공을위한 팁 최근 데이터 과학 졸업생 및 최종 1 년간의 공학 학생들은 다국적 기업 (MNC)을 목표로합니다. 많은 옵션이 있습니다. 이 안내서는 데이터를 고용하는 주요 회사를 강조합니다

Genai와의 매력적인 고객 경험을 만드는 방법은 무엇입니까?Apr 17, 2025 am 10:27 AM

생성 AI를 통한 고객 경험 향상 : 전략적 접근 고객 만족도가 가장 중요하며 비즈니스는 점점 탁월한 경험을 제공 할 필요성을 인식하고 있습니다. 고객의 70% 이상이 개인화 된 서비스를 원합니다

Flux.1, Gemma 2, Sam 2 등을 특징으로하는 AI 혁신Apr 17, 2025 am 10:26 AM

AI 주간 다이제스트 : 획기적인 혁신 및 윤리적 고려 사항 AV 바이트에 다시 오신 것을 환영합니다. 이번 주 하이라이트는 텍스트-이미지 생성, Model Efficie의 놀라운 진행 상황을 보여줍니다.

See all articles

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7532

Cakephp 튜토리얼

1379

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

다중 모드 대형 모델은 오픈 소스를 통해 온라인에서 젊은이들이 선호합니다. 1080Ti를 쉽게 실행할 수 있습니다.

"미니어쳐 버전" Vary

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

WebStorm Mac 버전

메모장++7.3.1

에디트플러스 중국어 크랙 버전

SublimeText3 중국어 버전

VSCode Windows 64비트 다운로드

뜨거운 주제