이미지-텍스트 모델의 힘 탐색 : Trocr and Zhen Latex OCR
AI의 세계는 언어 모델과 가상 지원 및 컨텐츠 생성에 응용 프로그램을 가지고 있습니다. 그러나 광학 문자 인식 (OCR)으로 구동되는 이미지 간 텍스트 변환 분야는 흥미로운 가능성을 제공합니다. 이 기사는 두 가지 강력한 이미지-텍스트 모델 인 Trocr과 Zhen Latex OCR을 탐구하여 고유 한 강점과 응용 프로그램을 강조합니다.
학습 목표 :
- Trocr 및 Zhen Latex OCR의 최적 사용 사례를 이해하십시오.
- 기본 아키텍처에 대한 통찰력을 얻으십시오.
- 이러한 모델에 대한 추론을 수행하고 실제 응용 프로그램을 탐색하십시오.
- 이러한 강력한 도구의 실제 사용을 인식하십시오.
(이 기사는 데이터 과학 블로그의 일부입니다.)
목차 :
- trocr : 이미지-텍스트를위한 인코더 디코더 모델
- 대형 건축
- Zhen Latex OCR 소개
- Trocr vs. Zhen Latex OCR : 비교
- Tracry 사용 : 단계적 단계 가이드
- 수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용
- 향후 개선 및 향상
- OCR의 실제 응용 프로그램
- 자주 묻는 질문
trocr : 이미지-텍스트를위한 인코더 디코더 모델
TROCR (전통적인 기반 광학 문자 인식)은 이미지-텍스트 변환을위한 시퀀스-시퀀스 메커니즘을 활용하는 인코더 디코더 모델입니다. 이미지 변압기 (인코더)와 텍스트 변압기 (디코더)가 특징입니다. TRACR 모델은 일반적으로 합성 적으로 생성 된 인쇄 된 텍스트 이미지의 방대한 데이터 세트에서 미리 훈련 된 다음 IAM 필기 텍스트 및 SROIE 인쇄 영수증과 같은 데이터 세트에서 미세 조정되어 Track-Small-Sroie, Troc-Base-Sroie 및 TroC-Large-Sroie와 같은 변형이 발생합니다.
대형 건축
CNN 및 RNN에 의존하는 전통적인 OCR 모델과 달리 TROCR은 비전 및 언어 변압기 아키텍처를 사용합니다. 인코더는 이미지를 처리하여 패치로 나누고 멀티 헤드주의 및 피드 포워드 블록을 사용하여 이미지 임베딩을 생성합니다. 그런 다음 디코더는 이러한 임베딩을 처리하여 인코딩 된 텍스트 출력을 생성하며, 이는 최종적으로 읽을 수있는 텍스트로 디코딩됩니다. 이미지는 고정 크기 패치에 미리 처리됩니다 (예 : 16x16).
Zhen Latex OCR 소개
MixTex의 오픈 소스 모델 인 Zhen Latex OCR은 수학 공식 및 텍스트의 이미지를 라텍스 코드로 변환하는 것을 전문으로하는 또 다른 강력한 인코더 디코더 모델입니다. 복잡한 라텍스 수학 공식, 테이블을 정확하게 인식하고 단일 이미지 내에서 단어, 텍스트, 공식 및 테이블을 구분합니다. 영어와 중국어에 대한 이중 언어 지원을 제공합니다.
Trocr vs. Zhen Latex OCR : 비교
TROCR은 단일 라인 텍스트 이미지를 처리하는 데 탁월하며 다른 OCR 모델에 비해 속도 이점이 있습니다. 그러나 Zhen Latex OCR은 수학 공식과 라텍스 코드를 처리하는 능력이 빛나며 연구원과 학업을위한 귀중한 도구를 제공합니다. 라텍스 입력을위한 다른 도구가 존재하지만 Zhen Latex OCR은 편리하고 효율적인 대안을 제공합니다.
Tracry 사용 : 단계적 단계 가이드
SROIE 데이터 세트와 함께 미세 조정 된 TROCL 모델을 사용하여 시연합니다.
1 단계 : 라이브러리 가져 오기
변압기에서 VisionEncoderdecodermodel, Traverprocessor를 가져옵니다 PIL 가져 오기 이미지에서 가져 오기 요청
2 단계 : 이미지로드
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg' image = image.open (requests.get (url, stream = true) .raw) .convert ( "rgb")
3 단계 : TRACR 모델 초기화
프로세서 = trocrprocessor.from_pretraind ( 'Microsoft/Troc-Base Printed') Model = VisionEncoderDecoderModel.from_pretrained ( 'Microsoft/Troc-Base Printed') pixel_values = processor (images = image, return_tensors = "pt"). pixel_values
4 단계 : 텍스트 생성
generated_ids = model.generate (pixel_values) generated_text = processor.batch_decode (generated_ids, skip_special_tokens = true) [0] print (generated_text.lower ()) # 소문자의 출력
수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용
Zhen Latex OCR을 사용하는 간단한 예는 다음과 같습니다.
1 단계 : 라이브러리 가져 오기
변압기에서 Autotokenizer, VisionEncoderdecodermodel, AutoimageProcessor를 가져옵니다 PIL 가져 오기 이미지에서 가져 오기 요청 feaction_extractor = autoimageProcessor.from_pretrained ( "mixtex/zhen-latex-acroc") Tokenizer = autotokenizer.from_pretrained ( "MixTex/Zhen-latex-Aroc", max_len = 296) Model = VisionEncoderDecoderModel.from_pretrained ( "MixTex/Zhen-Latex-Aroc")
2 단계 : 라텍스 처리 및 생성
imgen = image.open (requests.get ( 'https://cdn-upload.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjc_8ptsc-h.png', stream = true) .Raw). al 인쇄 (Latex_output)
향후 개선 및 향상
두 모델 모두 개선의 여지가 있습니다. TROCR은 자연 장면의 곡선 텍스트 및 이미지의 향상된 처리로부터 이익을 얻을 수 있습니다. Zhen Latex OCR은 필기 수학 공식과 더 복잡한 테이블을 지원하기 위해 확장 할 수 있습니다.
OCR의 실제 응용 프로그램
OCR 모델은 다양한 부문에서 광범위한 응용 프로그램을 찾습니다.
- 금융 : 재무 문서에서 데이터 추출 자동화.
- 건강 관리 : 환자 기록 및 처방전 디지털화.
- 정부 : 문서 처리 및 기록 유지 간소화.
결론
TROCR 및 ZHEN LATEX OCR은 이미지-텍스트 기술의 상당한 발전을 나타냅니다. 그들의 강점과 한계를 이해함으로써, 우리는 이러한 강력한 도구를 활용하여 수많은 산업에서 실제 문제를 해결할 수 있습니다.
주요 테이크 아웃 :
- Trocr는 단일 라인 텍스트 인식으로 탁월합니다.
- Zhen Latex OCR은 수학 공식 및 라텍스 코드를 전문으로합니다.
- 특정 요구에 따라 모델 선택 최적화는 최적의 결과에 중요합니다.
자주 묻는 질문
Q1 : Trocr와 Zhen Latex OCR의 주요 차이점은 무엇입니까? Trocr는 일반 텍스트 추출에 중점을두고 Zhen Latex OCR은 수학 공식과 라텍스를 전문으로합니다.
Q2 : 언제 Tracroc 대신 Zhen Latex OCR을 사용해야합니까? 수학적 방정식 또는 라텍스 코드를 처리 할 때 Zhen Latex OCR을 사용하십시오. 그렇지 않으면 TROCR이 적합합니다.
Q3 : Zhen Latex OCR이 필기 방정식을 처리 할 수 있습니까? 현재는 아니지만 향후 개선이이를 해결할 수 있습니다.
Q4 : 어떤 산업이 OCR에서 가장 큰 혜택을 받습니까? 금융, 의료 및 정부는 주요 수혜자 중 하나입니다.
(참고 :이 기사에 사용 된 이미지는 저자가 소유하지 않으며 허가를 받아 사용됩니다.)
위 내용은 TROCR 및 ZHEN LATEX OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
