4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.
PDF, 웹페이지, 포스터, 엑셀 차트의 내용을 자동으로 분석할 수 있는 대형 모델은 아르바이트자에게 그리 편리하지 않습니다.
Shanghai AI Lab, Chinese University of Hong Kong 및 기타 연구 기관에서 제안한 InternLM-XComposer2-4KHD(약칭 IXC2-4KHD) 모델이 이를 현실로 만듭니다.
해상도 제한이 1500x1500 이하인 다른 멀티모달 대형 모델과 비교하여 이 작업은 멀티모달 대형 모델의 최대 입력 이미지를 4K(3840x1600) 이상 해상도로 높이고 모든 길이와 너비 비율 및 336픽셀 ~ 4K 동적 해상도가 변경됩니다.
출시 3일 만에 허깅페이스 비주얼 질문답변 모델 인기순위 1위를 차지한 모델입니다.
쉬운 4K 이미지 이해
먼저 효과를 살펴보겠습니다~
연구원이 논문 홈페이지 스크린샷을 입력했습니다(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)(해상도는 2550x3300) ), 모델이 MMBench에서 가장 높은 성능을 보이는 논문이 무엇인지 물었습니다.
이 정보는 입력 스크린샷의 텍스트 부분에는 언급되지 않고 다소 복잡한 방사형 차트에서만 나타납니다. 이렇게 까다로운 질문에 직면한 IXC2-4KHD는 레이더 차트의 정보를 성공적으로 이해하고 질문에 정확하게 답했습니다.
보다 극단적인 해상도의 이미지 입력(816 x 5133)에 직면한 IXC2-4KHD는 이미지가 7개의 부분으로 구성되어 있음을 쉽게 이해하고 각 부분에 포함된 텍스트 정보 내용을 정확하게 설명합니다.
이후 연구원들은 16개의 다중 모드 대형 모델 평가 지표에서 IXC2-4KHD의 기능을 종합적으로 테스트했으며, 그 중 5개의 평가(DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench)는 고해상도에 중점을 두었습니다. 모델 속도 이미지 이해 능력.
7B 매개변수만 사용하여 IXC2-4KHD는 10가지 평가에서 GPT4V 및 Gemini Pro와 비슷하거나 심지어 능가하는 결과를 달성하여 고해상도 이미지 이해에만 국한되지 않고 다양한 작업 및 시나리오 능력에 다재다능하다는 것을 입증했습니다. .
Δ7B 매개변수만 사용하는 IXC2-4KHD의 성능은 GPT-4V 및 Gemini-Pro와 비슷합니다. 4K 동적 해상도를 달성하는 방법은 무엇입니까?
4K 동적 해상도 목표를 달성하기 위해 IXC2-4KHD에는 세 가지 주요 디자인이 포함됩니다.
(1) 동적 해상도 교육:
Δ4K 해상도 이미지 처리 전략
프레임워크 내 , 입력 이미지는 가로 세로 비율을 유지하면서 입력 영역과 최대 영역 사이의 중간 크기(55x336x336, 3840x1617 해상도에 해당) 사이의 중간 크기로 무작위로 확대됩니다.
이후 이미지는 자동으로 여러 336x336 영역으로 절단되어 각각의 시각적 특징을 추출합니다. 이 동적 해상도 훈련 전략을 통해 모델은 모든 해상도의 시각적 입력에 적응하는 동시에 고해상도 훈련 데이터가 부족한 문제를 보완할 수 있습니다.
실험에 따르면 동적 해상도 상한이 높아질수록 모델은 고해상도 이미지 이해 작업(InfographicVQA, DocVQA, TextVQA)에서 안정적인 성능 향상을 달성하지만, 4K 해상도에서는 여전히 상한에 도달하지 않아 추가 성장 가능성을 보여줍니다. 더 높은 해상도로 확장하세요.
(2) 타일 레이아웃 정보 추가:
모델이 변화하는 동적 해상도에 적응할 수 있도록 하기 위해 연구원들은 타일 레이아웃 정보를 추가 입력으로 추가해야 한다는 것을 발견했습니다. 이를 달성하기 위해 연구원들은 간단한 전략을 채택했습니다. 타일의 각 행 뒤에 특수 '개행'('n') 토큰을 삽입하여 타일의 레이아웃 모델을 알려줍니다. 실험에 따르면 타일 레이아웃 정보를 추가하면 상대적으로 작은 변화(HD9는 타일 영역 수가 9를 초과하지 않음을 나타냄)로 동적 해상도 훈련에 거의 영향을 미치지 않지만 동적 4K 해상도 훈련에는 상당한 성능 향상을 가져올 수 있습니다.
(3) 추론 단계 중 해상도 확장
연구원들은 또한 동적 해상도를 사용하는 모델이 최대 타일 상한을 늘려 추론 단계 중에 해상도를 직접 확장하고 추가적인 성능 향상을 가져올 수 있음을 발견했습니다. 예를 들어 HD16을 사용하여 HD9(최대 9개 블록)에서 훈련된 모델을 직접 테스트하면 InfographicVQA에서 최대 8%의 성능 향상을 관찰할 수 있습니다.
IXC2-4KHD는 다중 모드 대형 모델이 지원하는 해상도를 4K 수준으로 높입니다. 연구원들은 타일 수를 늘려 더 큰 이미지 입력을 지원하는 현재 전략이 계산 비용과 메모리 제약에 직면한다고 말했습니다. 향후 더 높은 해상도 지원을 달성하기 위해 보다 효율적인 전략을 제안할 계획입니다.
논문 링크:
https://arxiv.org/pdf/2404.06512.pdf
프로젝트 링크:
https://github.com/InternLM/InternLM-XComposer
—끝—
보내주세요 귀하의 제출물 이메일 주소:
ai@qbitai.com
제목을 표시하고 다음을 알려주십시오:
당신은 누구이며, 어디 출신이며, 제출 내용
논문/프로젝트 홈페이지 링크 및 연락처를 첨부하십시오.
최대한 답장을 보내드리겠습니다
여기를 클릭해 저를 팔로우하고 별표를 표시하세요~
클릭 세 번으로 "공유", "좋아요", "시청"이 가능합니다
매일 만나요 최첨단 과학기술의 진보에~
위 내용은 4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Honor Magicbook Pro14는 AIPC의 새로운 시대를 이끌고 놀랍게 출시되었습니다! MWC 개막 전날, Honor는 처음으로 중국에서 새로운 Magicbook Pro14 노트북을 발표했으며 동시에 AIPC 2.0 전략을 시작하여 AI 기술의 랩톱 경험을 포괄적으로 혁신했습니다. Honor AIPC2.0 전략은 AI 코어 중심 지능 하드웨어, AI 에이전트 지원 휴먼-컴퓨터 상호 작용 및 AI 서비스 흐름의 크로스 엔드 생태계를 다룹니다. 칭찬 된 "One Sentence Things"AI Interactive Experience of Honor 휴대 전화도 MagicBook Pro14에서 구현 될 것이며 사용자는 음성 명령으로 작업을 완료 할 수 있습니다. 새로운 Honorturbox 기술인 Magicbo가 장착되어 있습니다

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

WebStorm Mac 버전
유용한 JavaScript 개발 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.
