探索圖像到文本模型的力量:Trocr和Zhen乳膠OCR
AI的世界充滿了語言模型及其在虛擬協助和內容創建中的應用。但是,由光學特徵識別(OCR)提供支持的圖像到文本轉換領域提供了令人興奮的可能性。本文深入研究了兩種強大的圖像到文本模型:Trocr和Zhen乳膠OCR,突出了它們的獨特優勢和應用。
學習目標:
- 了解Trocr和Zhen乳膠OCR的最佳用例。
- 洞悉其基本架構。
- 對這些模型進行推斷並探索實際應用。
- 識別這些強大工具的現實用途。
(本文是數據科學博客馬拉鬆的一部分。)
目錄:
- Trocr:圖像到文本的編碼器模型
- 特羅克建築
- 引入Zhen乳膠OCR
- Trocr vs. Zhen Latex OCR:比較
- 使用TROCR:逐步指南
- 利用Zhen乳膠OCR進行數學和乳膠圖像識別
- 未來的改進和增強
- OCR的真實應用
- 常見問題
Trocr:圖像到文本的編碼器模型
TROR(基於傳統的光學特徵識別)是一種編碼器模型,利用序列到序列機制進行圖像到文本轉換。它具有圖像變壓器(編碼器)和文本變壓器(解碼器)。 Trocr模型通常在綜合生成的印刷文本圖像的廣泛數據集上進行預訓練,然後在IAM手寫文本和SROIE印刷收據等數據集上進行微調,從而產生了Trocr-Small-Sroie,Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等變體。
特羅克建築
與依靠CNN和RNNS的傳統OCR模型不同,TROCR採用了遠見和語言變壓器體系結構。編碼器處理圖像,將其分為貼片,並使用多頭注意力和饋送前方塊生成圖像嵌入。然後,解碼器處理這些嵌入以產生編碼的文本輸出,最終將其解碼為可讀文本。圖像已預處理到固定尺寸的補丁(例如,16x16)。
引入Zhen乳膠OCR
Zhen Latex OCR是Mixtex的開源模型,是另一個功能強大的編碼器模型模型,專門將數學公式的圖像和文本轉換為乳膠代碼。它準確地識別複雜的乳膠數學公式,表,甚至在單個圖像中的單詞,文本,公式和表之間的區分。它為英語和中文提供雙語支持。
Trocr vs. Zhen Latex OCR:比較
Trocr在處理單線文本圖像方面表現出色,提供了比其他OCR模型的速度優勢。但是,Zhen乳膠OCR閃耀著其處理數學公式和乳膠代碼的能力,為研究人員和學者提供了寶貴的工具。儘管存在用於乳膠輸入的其他工具,但Zhen latex OCR提供了方便有效的替代方案。
使用TROCR:逐步指南
我們將使用SROIE數據集進行微調的Trocr模型演示。
步驟1:導入庫
從變形金剛導入trocrprocessor,VisionencoderDecodermodel 從PIL導入圖像 導入請求
步驟2:加載圖像
url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg' image = image.open(requests.get(url,stream = true).raw).convert(“ rgb”)
步驟3:初始化TROR模型
processor = trocrprocessor.from_pretrataining('Microsoft/Trocr-Base印刷') 模型= visionencoderdecodermodel.from_pretrated('Microsoft/Trocr-Base印刷') pixel_values =處理器(images = image,return_tensors =“ pt”)。 pixel_values
步驟4:文字一代
generated_ids = model.generate(pixel_values) generated_text = processor.batch_decode(generated_ids,skip_special_tokens = true)[0] print(generated_text.lower())#在小寫中輸出
利用Zhen乳膠OCR進行數學和乳膠圖像識別
這是使用Zhen乳膠OCR的簡短示例:
步驟1:導入庫
從變形金剛導入自動源,VisionencoderDecodermodel,AutoImageProcessor 從PIL導入圖像 導入請求 feature_extractor = autoimageProcessor.from_pretrataining(“ mixtex/zhen-latex-ocr”) tokenizer = autotokenizer.from_pretrataining(“ mixtex/zhen-latex-ocr”,max_len = 296) 型號= VisionencoderDecodermodel.from_pretrated(“ mixtex/zhen-latex-orock”)
步驟2:處理和生成乳膠
imgen = image.open(requests.get('https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png',stream = truh)。 latex_output = tokenizer.decode(model.generate(feature_extractor(imgen,return_tensors =“ pt”)。pixel_values)。pixel_values)[0])。 打印(latex_output)
未來的改進和增強
兩種型號都有改進的空間。 Trocr可以從增強的曲線文本和自然場景中的圖像中受益。 Zhen Latex OCR可以擴展以支持手寫數學公式和更複雜的表。
OCR的真實應用
OCR模型在各個領域找到廣泛的應用程序:
- 財務:從財務文件中提取數據。
- 醫療保健:數字化患者記錄和處方。
- 政府:簡化文件處理和記錄保存。
結論
Trocr和Zhen乳膠OCR代表了圖像到文本技術的重大進步。通過了解它們的優勢和局限性,我們可以利用這些強大的工具來解決眾多行業的現實世界問題。
關鍵要點:
- Trocr在單線文本識別方面表現出色。
- Zhen乳膠OCR專門研究數學公式和乳膠代碼。
- 基於特定需求的模型選擇對於最佳結果至關重要。
常見問題
Q1:Trocr和Zhen乳膠OCR之間的主要區別是什麼? Trocr專注於一般文本提取,而Zhen latex OCR專門研究數學公式和乳膠。
Q2:我什麼時候應該使用Zhen乳膠OCR代替Trocr?處理數學方程式或乳膠代碼時,請使用Zhen乳膠OCR;否則,特羅克是合適的。
Q3:Zhen乳膠OCR可以處理手寫方程嗎?目前,不,但是未來的改進可能會解決這一問題。
問題4:哪些行業從OCR中受益最大?金融,醫療保健和政府是主要受益者。
(注意:本文中使用的圖像不由作者所有,並且經過許可。)
以上是Trocr和Zhen乳膠OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),