>  기사  >  기술 주변기기  >  Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?

WBOY
WBOY앞으로
2024-01-05 21:23:581053검색

문서 이미지를 마크다운 형식으로 변환하고 싶으십니까?

과거에는 이 작업에 텍스트 인식, 레이아웃 감지 및 정렬, 수식표 처리, 텍스트 정리 등 여러 단계가 필요했습니다. -

이번에는 단 한 문장의 명령으로 다중 모드 대형 모델 Vary는 터미널 출력 결과에 직접 전달됩니다:

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?pictures

중국어와 영어로 된 큰 텍스트인지 여부:

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?pictures

또한 수식 문서 그림

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?pictures을 포함합니다

또는 모바일 페이지 스크린샷:

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?picture

사진 속 테이블을 latex로 변환할 수도 있습니다. 형식:

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?picture

물론 멀티 모델 대형으로 모델에서는 범용 기능을 유지하는 것이 필수적입니다.

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까? 사진

Vary는 큰 잠재력과 극도로 높은 상한을 보여줍니다. OCR은 더 이상 긴 파이프라인을 필요로 하지 않고 직접 end-to-end를 출력할 수 있으며 라텍스와 같은 다양한 형식을 출력할 수 있습니다. 사용자 프롬프트에 따라 단어, 마크다운.

강력한 언어 사전 설정을 통해 이 아키텍처는 "레버리지" 및 "듀폴" 등과 같이 OCR에서 오타가 발생하기 쉬운 단어를 피할 수 있습니다. 퍼지 문서의 경우 언어 사전의 도움으로 더욱 강력한 OCR 효과를 얻을 수 있을 것으로 예상됩니다

많은 네티즌들의 관심을 끌었던 프로젝트는 출시와 동시에 큰 화제를 불러일으켰습니다. 이를 본 네티즌 중 한 명은 "너무 멋지다!"라고 외쳤다.

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?사진

이 효과는 어떻게 구현된 걸까요?

대형 모델에서 영감을 얻음

현재 거의 모든 다중 모드 대형 모델은 CLIP을 Vision Encoder 또는 시각적 어휘로 사용합니다. 실제로 4억 개의 이미지-텍스트 쌍으로 훈련된 CLIP은 강력한 시각적 텍스트 정렬 기능을 갖추고 있으며 대부분의 일상 작업에서 이미지 인코딩을 처리할 수 있습니다.

그러나 특히 영어가 아닌 시나리오에서 문서 수준 OCR 및 차트 이해와 같은 조밀하고 세밀한 인식 작업의 경우 CLIP은 명백한 코딩 비효율성과 어휘 부족 문제를 보여줍니다.

대형 순수 NLP 모델(예: LLaMA)이 영어에서 중국어(대형 모델의 경우 "외국어")로 전환하는 경우 중국어를 인코딩하는 원래 어휘가 비효율적이므로 더 나은 결과를 얻으려면 텍스트 어휘를 확장해야 합니다.

연구팀이 영감을 얻은 것은 바로 이 기능 때문입니다

이제 CLIP 시각적 어휘를 기반으로 한 다중 모드 대형 모델은 빽빽하게 들어찬 페이지와 같은 "외국어 이미지"와 마주치는 동일한 문제에 직면합니다. 종이에 텍스트가 있으면 이미지를 효율적으로 토큰화하기가 어렵습니다.

Vary는 이러한 문제를 해결하기 위해 제공되는 솔루션입니다. 원래의 어휘를 재정립하지 않고도 시각적인 어휘를 효율적으로 확장할 수 있습니다.

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?Pictures

기존 방식과 달리 기성 CLIP 어휘인 Vary를 사용합니다.

첫 번째 단계에서는 작은 디코더 전용 네트워크를 사용하여 자동 회귀 방식으로 강력하고 새로운 시각적 어휘를 생성합니다.

다음으로 두 번째 단계에서는 새로운 어휘와 CLIP 어휘가 fused를 통해 효율적으로 LVLM을 훈련하고 새로운 기능을 제공합니다

다음은 Vary의 훈련 방법과 모델 구조를 보여줍니다.

Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?Pictures

공개 데이터 세트와 렌더링된 문서 차트에 대한 훈련을 통해 Vary는 세분화된 작업을 크게 향상시킵니다. 시각적 인식 능력.

바닐라 다중 모드 기능을 유지하면서 엔드투엔드 중국어 및 영어 그림, 수식 스크린샷 및 차트 이해 기능에 영감을 줍니다.

또한 연구팀은 원래 수천 개의 토큰이 필요할 수 있는 페이지 콘텐츠가 문서 이미지를 통해 입력되었으며, 해당 정보가 256개의 이미지 토큰으로 Vary 압축되어 추가 페이지 분석 및 요약 공간에 더 많은 상상력을 제공했다는 사실을 발견했습니다. .

현재 Vary의 코드와 모델은 오픈 소스이며 누구나 시도해 볼 수 있는 웹 데모도 제공됩니다.

관심있는 친구들은 한번 해보세요~

위 내용은 Megvii의 오픈 소스 다중 모드 대형 모델은 중국어와 영어를 포괄하는 문서 수준 OCR을 지원합니다. 이것이 OCR의 종말을 의미합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제