PDF, 웹페이지, 포스터, 엑셀 차트의 내용을 자동으로 분석할 수 있는 대형 모델은 아르바이트자에게 그리 편리하지 않습니다.
Shanghai AI Lab, Chinese University of Hong Kong 및 기타 연구 기관에서 제안한 InternLM-XComposer2-4KHD(약칭 IXC2-4KHD) 모델이 이를 현실로 만듭니다.
해상도 제한이 1500x1500 이하인 다른 멀티모달 대형 모델과 비교하여 이 작업은 멀티모달 대형 모델의 최대 입력 이미지를 4K(3840x1600) 이상 해상도로 높이고 모든 길이와 너비 비율 및 336픽셀 ~ 4K 동적 해상도가 변경됩니다.
출시 3일 만에 허깅페이스 비주얼 질문답변 모델 인기순위 1위를 차지한 모델입니다.
쉬운 4K 이미지 이해
먼저 효과를 살펴보겠습니다~
연구원이 논문 홈페이지 스크린샷을 입력했습니다(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)(해상도는 2550x3300) ), 모델이 MMBench에서 가장 높은 성능을 보이는 논문이 무엇인지 물었습니다.
이 정보는 입력 스크린샷의 텍스트 부분에는 언급되지 않고 다소 복잡한 방사형 차트에서만 나타납니다. 이렇게 까다로운 질문에 직면한 IXC2-4KHD는 레이더 차트의 정보를 성공적으로 이해하고 질문에 정확하게 답했습니다.
보다 극단적인 해상도의 이미지 입력(816 x 5133)에 직면한 IXC2-4KHD는 이미지가 7개의 부분으로 구성되어 있음을 쉽게 이해하고 각 부분에 포함된 텍스트 정보 내용을 정확하게 설명합니다.
이후 연구원들은 16개의 다중 모드 대형 모델 평가 지표에서 IXC2-4KHD의 기능을 종합적으로 테스트했으며, 그 중 5개의 평가(DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench)는 고해상도에 중점을 두었습니다. 모델 속도 이미지 이해 능력.
7B 매개변수만 사용하여 IXC2-4KHD는 10가지 평가에서 GPT4V 및 Gemini Pro와 비슷하거나 심지어 능가하는 결과를 달성하여 고해상도 이미지 이해에만 국한되지 않고 다양한 작업 및 시나리오 능력에 다재다능하다는 것을 입증했습니다. .
Δ7B 매개변수만 사용하는 IXC2-4KHD의 성능은 GPT-4V 및 Gemini-Pro와 비슷합니다. 4K 동적 해상도를 달성하는 방법은 무엇입니까?
4K 동적 해상도 목표를 달성하기 위해 IXC2-4KHD에는 세 가지 주요 디자인이 포함됩니다.
(1) 동적 해상도 교육:
Δ4K 해상도 이미지 처리 전략
프레임워크 내 , 입력 이미지는 가로 세로 비율을 유지하면서 입력 영역과 최대 영역 사이의 중간 크기(55x336x336, 3840x1617 해상도에 해당) 사이의 중간 크기로 무작위로 확대됩니다.
이후 이미지는 자동으로 여러 336x336 영역으로 절단되어 각각의 시각적 특징을 추출합니다. 이 동적 해상도 훈련 전략을 통해 모델은 모든 해상도의 시각적 입력에 적응하는 동시에 고해상도 훈련 데이터가 부족한 문제를 보완할 수 있습니다.
실험에 따르면 동적 해상도 상한이 높아질수록 모델은 고해상도 이미지 이해 작업(InfographicVQA, DocVQA, TextVQA)에서 안정적인 성능 향상을 달성하지만, 4K 해상도에서는 여전히 상한에 도달하지 않아 추가 성장 가능성을 보여줍니다. 더 높은 해상도로 확장하세요.
(2) 타일 레이아웃 정보 추가:
모델이 변화하는 동적 해상도에 적응할 수 있도록 하기 위해 연구원들은 타일 레이아웃 정보를 추가 입력으로 추가해야 한다는 것을 발견했습니다. 이를 달성하기 위해 연구원들은 간단한 전략을 채택했습니다. 타일의 각 행 뒤에 특수 '개행'('n') 토큰을 삽입하여 타일의 레이아웃 모델을 알려줍니다. 실험에 따르면 타일 레이아웃 정보를 추가하면 상대적으로 작은 변화(HD9는 타일 영역 수가 9를 초과하지 않음을 나타냄)로 동적 해상도 훈련에 거의 영향을 미치지 않지만 동적 4K 해상도 훈련에는 상당한 성능 향상을 가져올 수 있습니다.
(3) 추론 단계 중 해상도 확장
연구원들은 또한 동적 해상도를 사용하는 모델이 최대 타일 상한을 늘려 추론 단계 중에 해상도를 직접 확장하고 추가적인 성능 향상을 가져올 수 있음을 발견했습니다. 예를 들어 HD16을 사용하여 HD9(최대 9개 블록)에서 훈련된 모델을 직접 테스트하면 InfographicVQA에서 최대 8%의 성능 향상을 관찰할 수 있습니다.
IXC2-4KHD는 다중 모드 대형 모델이 지원하는 해상도를 4K 수준으로 높입니다. 연구원들은 타일 수를 늘려 더 큰 이미지 입력을 지원하는 현재 전략이 계산 비용과 메모리 제약에 직면한다고 말했습니다. 향후 더 높은 해상도 지원을 달성하기 위해 보다 효율적인 전략을 제안할 계획입니다.
논문 링크:
https://arxiv.org/pdf/2404.06512.pdf
프로젝트 링크:
https://github.com/InternLM/InternLM-XComposer
—끝—
보내주세요 귀하의 제출물 이메일 주소:
ai@qbitai.com
제목을 표시하고 다음을 알려주십시오:
당신은 누구이며, 어디 출신이며, 제출 내용
논문/프로젝트 홈페이지 링크 및 연락처를 첨부하십시오.
최대한 답장을 보내드리겠습니다
여기를 클릭해 저를 팔로우하고 별표를 표시하세요~
클릭 세 번으로 "공유", "좋아요", "시청"이 가능합니다
매일 만나요 최첨단 과학기술의 진보에~
위 내용은 4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!