首頁 >科技週邊 >人工智慧 >探析OCR辨識的原理與應用場景

探析OCR辨識的原理與應用場景

王林轉載: 2024-01-14 22:36:051352瀏覽

探析OCR辨識的原理與應用場景

Labs 導讀

#日常生活中，截圖擷取與拍照搜題都廣泛應用了OCR（光學字元辨識）技術，這是文字辨識領域中非常重要的技術

##Part 01、什麼是OCR##

OCR（光學字元辨識）是一種電腦文字辨識的方法，利用光學和電腦技術將印刷或手寫的文字影像轉換成準確可讀的文字格式，以供計算機識別和應用。 OCR識別技術在現代生活的各個行業中得到越來越廣泛的應用，它是實現快速將文字內容輸入計算機的關鍵技術

Part 02、

OCR技術原則

OCR技術主要分為傳統OCR和深度學習OCR兩個學派。

在OCR技術發展早期，技術人員使用如二值化、連通域分析和投影分析等影像處理技術，結合統計機器學習（如Adaboost和SVM）來擷取影像文字內容，我們將其統一歸類為傳統型OCR，其主要特徵在於依賴繁雜的資料預處理操作來對影像進行矯正和降噪，面對複雜場景適應性的重要性不可忽視。在不斷變化的環境中，適應性是一種關鍵的能力。一個擁有良好適應性的人能夠適應新的情況和要求，快速地適應變化，並找到解決問題的方法。適應性也是一個人在個人和職業生活中成功的關鍵因素之一。因此，我們應該努力培養和提高自己的適應性，以應對不斷變化的世界較差，準確率和反應速度也不盡如人意。

得益於AI技術不斷發展，基於端到端深度學習OCR技術逐漸成熟，該方法優勢在於無需明確地引入圖像預處理階段中的文字切割環節，而是將文字辨識轉化為序列學習問題，使文字分割融入深度學習中，對OCR技術完善和未來發展方向具有重要意義。

2.1 傳統OCR識別流程

#傳統OCR技術處理流程圖如下：

探析OCR辨識的原理與應用場景

影像預處理：文字影像經過裝置掃描後進入預處理階段，由於各種文字媒體存在幹擾因素，如紙張的光潔度和印刷質量，螢幕的光線明暗等都會造成文字畸變，因此需要對影像進行亮度調整、影像增強和雜訊濾波等預處理手段。

文字區域定位：對於文字區域進行定位擷取，方法主要包括連通域偵測和MSER偵測。

文字圖像矯正：對於傾斜文字進行矯正，確保水平，矯正的方法主要包括水平矯正和透視矯正。

行列單字切分：傳統的文字辨識都是基於單字元的識別，分割方法主要利用連通域輪廓和垂直投影切割。

分類器字元辨識：運用HOG、Sift等特徵擷取演算法對字元進行向量資訊擷取，使用SVM演算法、邏輯迴歸、支援向量機等進行訓練。

後處理：由於分類器的分類不一定完全正確，或在字元切割過程中存在失誤，所以需要基於統計語言模型（如隱馬爾科夫鏈，HMM）或人為提取規則設計語言規則模型對文本結果進行語義糾錯。

2.2 深度學習OCR

#圖片探析OCR辨識的原理與應用場景

目前主流的深度學習OCR演算法將文字偵測和文字辨識兩個階段分別建模。

文字偵測可以分為基於迴歸和基於分割的方法。迴歸方法包括CTPN、Textbox和EAST等演算法，可以偵測影像中有方向的文字，但會受到文字區域不規則的影響。分割方法例如PSENet演算法，可以處理各種形狀和大小的文本，但較近的文本容易出現黏行問題。不同方法各有優劣之處

文字辨識階段主要使用CRNN、ATTENTION兩大類技術，將文字辨識轉化為序列學習問題，兩種技術在其特徵學習階段都採用了CNN RNN 的網路結構，不同之處在於最後的輸出層（翻譯層），也就是如何把網路學習到的序列特徵資訊轉換為最終的辨識結果。

另外，还有一种最新的端到端算法，它直接将文本检测和文本识别融合到单个网络模型中进行学习。例如，FOTS、Mask TextSpotter等算法。与独立的文本检测和文本识别方法相比，这种算法的识别速度更快，但相对精度较弱

2.3方案对比

	传统型识别	人工智能的深度学习识别技术
底层算法	文本检测、识别分为多个阶段和子过程，使用不同算法组合	这个模型的目标是融合检测和识别的过程，实现端到端
稳定性	多阶段整体稳定性较差	经过端到端的优化，系统的稳定性有了显著的提升
识别精度	小样本传统场景在精度不高的情况下具有一定优势	精度较高，融合程度越深，精度逐渐降低
识别速度	识别较慢	速度较快的识别
場景適應性的重要性不可忽視。在不斷變化的環境中，適應性是一種關鍵的能力。一個擁有良好適應性的人能夠適應新的情況和要求，快速地適應變化，並找到解決問題的方法。適應性也是一個人在個人和職業生活中成功的關鍵因素之一。因此，我們應該努力培養和提高自己的適應性，以應對不斷變化的世界	弱，適用標準印刷格式	#強，相容複雜場景，依賴模型訓練
抗干擾性	弱，對於輸入影像要求較高

##Part 03、

OCR常用評估指標

# #召回率：指OCR系統正確辨識出的字元數量與實際字元數量的比例，用於衡量系統是否漏辨識了一些字元。該值越高，表示系統對字元的覆蓋能力越好。

精確度：指OCR系統正確辨識出的字元數量與系統總辨識出的字元數量的比例，用於衡量系統的辨識結果中有多少是真正正確的，該值越高，表示系統的辨識結果更可靠。

F1值：綜合了召回率和精確率的評估指標，F1 值介於0 到1 之間，該值越高，表示系統在準確率和召回率之間取得了更好的平衡。

平均編輯距離（Average Edit Distance）是用來評估OCR辨識結果與真實文字之間差異程度的指標

Part 04 、應用與展望

#OCR作為文字辨識領域的主要分支之一，未來仍有廣泛的研究方向與發展空間。在識別準確率方面，研究更聰明的影像處理技術和更強大的深度學習模型仍然迫切；在多語種多字體的覆蓋上要求識別更具有普適性，並增強複雜場景適配能力；在實時識別方面，尋找更多與虛擬實境技術和擴增實境技術結合的應用點，如AR翻譯、文字資料的自動糾錯和資料校正等。

以上是探析OCR辨識的原理與應用場景的詳細內容。更多資訊請關注PHP中文網其他相關文章！

算法人工智能 cnn rnn ocr ar

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：用PyTorch實現雜訊去除擴散模型下一篇：用PyTorch實現雜訊去除擴散模型

看更多

探析OCR辨識的原理與應用場景

Labs 導讀

##Part 01、 什麼是OCR##

OCR技術原則

2.3方案对比

OCR常用評估指標

Part 04 、 應用與展望

相關文章

##Part 01、什麼是OCR##

Part 04 、應用與展望