Trocr和Zhen乳膠OCR-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Trocr和Zhen乳膠OCR

Jennifer Aniston

Apr 14, 2025 am 09:59 AM

探索圖像到文本模型的力量：Trocr和Zhen乳膠OCR

AI的世界充滿了語言模型及其在虛擬協助和內容創建中的應用。但是，由光學特徵識別（OCR）提供支持的圖像到文本轉換領域提供了令人興奮的可能性。本文深入研究了兩種強大的圖像到文本模型：Trocr和Zhen乳膠OCR，突出了它們的獨特優勢和應用。

學習目標：

了解Trocr和Zhen乳膠OCR的最佳用例。
洞悉其基本架構。
對這些模型進行推斷並探索實際應用。
識別這些強大工具的現實用途。

（本文是數據科學博客馬拉鬆的一部分。）

目錄：

Trocr：圖像到文本的編碼器模型
特羅克建築
引入Zhen乳膠OCR
Trocr vs. Zhen Latex OCR：比較
使用TROCR：逐步指南
利用Zhen乳膠OCR進行數學和乳膠圖像識別
未來的改進和增強
OCR的真實應用
常見問題

Trocr：圖像到文本的編碼器模型

TROR（基於傳統的光學特徵識別）是一種編碼器模型，利用序列到序列機制進行圖像到文本轉換。它具有圖像變壓器（編碼器）和文本變壓器（解碼器）。 Trocr模型通常在綜合生成的印刷文本圖像的廣泛數據集上進行預訓練，然後在IAM手寫文本和SROIE印刷收據等數據集上進行微調，從而產生了Trocr-Small-Sroie，Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等變體。

Trocr和Zhen乳膠OCR

特羅克建築

與依靠CNN和RNNS的傳統OCR模型不同，TROCR採用了遠見和語言變壓器體系結構。編碼器處理圖像，將其分為貼片，並使用多頭注意力和饋送前方塊生成圖像嵌入。然後，解碼器處理這些嵌入以產生編碼的文本輸出，最終將其解碼為可讀文本。圖像已預處理到固定尺寸的補丁（例如，16x16）。

引入Zhen乳膠OCR

Zhen Latex OCR是Mixtex的開源模型，是另一個功能強大的編碼器模型模型，專門將數學公式的圖像和文本轉換為乳膠代碼。它準確地識別複雜的乳膠數學公式，表，甚至在單個圖像中的單詞，文本，公式和表之間的區分。它為英語和中文提供雙語支持。

Trocr和Zhen乳膠OCR

Trocr vs. Zhen Latex OCR：比較

Trocr在處理單線文本圖像方面表現出色，提供了比其他OCR模型的速度優勢。但是，Zhen乳膠OCR閃耀著其處理數學公式和乳膠代碼的能力，為研究人員和學者提供了寶貴的工具。儘管存在用於乳膠輸入的其他工具，但Zhen latex OCR提供了方便有效的替代方案。

使用TROCR：逐步指南

我們將使用SROIE數據集進行微調的Trocr模型演示。

步驟1：導入庫

從變形金剛導入trocrprocessor，VisionencoderDecodermodel
從PIL導入圖像
導入請求

步驟2：加載圖像

url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open（requests.get（url，stream = true）.raw）.convert（“ rgb”）

步驟3：初始化TROR模型

processor = trocrprocessor.from_pretrataining（'Microsoft/Trocr-Base印刷'）
模型= visionencoderdecodermodel.from_pretrated（'Microsoft/Trocr-Base印刷'）
pixel_values =處理器（images = image，return_tensors =“ pt”）。 pixel_values

步驟4：文字一代

generated_ids = model.generate（pixel_values）
generated_text = processor.batch_decode（generated_ids，skip_special_tokens = true）[0]
print（generated_text.lower（））＃在小寫中輸出

Trocr和Zhen乳膠OCR

利用Zhen乳膠OCR進行數學和乳膠圖像識別

這是使用Zhen乳膠OCR的簡短示例：

步驟1：導入庫

從變形金剛導入自動源，VisionencoderDecodermodel，AutoImageProcessor
從PIL導入圖像
導入請求

feature_extractor = autoimageProcessor.from_pretrataining（“ mixtex/zhen-latex-ocr”）
tokenizer = autotokenizer.from_pretrataining（“ mixtex/zhen-latex-ocr”，max_len = 296）
型號= VisionencoderDecodermodel.from_pretrated（“ mixtex/zhen-latex-orock”）

步驟2：處理和生成乳膠

imgen = image.open（requests.get（'https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png'，stream = truh）。
latex_output = tokenizer.decode（model.generate（feature_extractor（imgen，return_tensors =“ pt”）。pixel_values）。pixel_values）[0]）。
打印（latex_output）

Trocr和Zhen乳膠OCR