首頁 >後端開發 >Python教學 >如何配置 Pytesseract 以進行僅數字輸出的單位數字識別?

如何配置 Pytesseract 以進行僅數字輸出的單位數字識別?

Barbara Streisand
Barbara Streisand原創
2024-12-03 13:34:10231瀏覽

How Can I Configure Pytesseract for Single Digit Recognition with Number-Only Output?

具有單位數字識別和僅限數字約束的Pytesseract OCR

在Pytesseract 的上下文中,配置Tesseract 以識別單位輸出數字可能具有挑戰性。為了解決這個問題,我們深入研究了 Tesseract 配置選項的細節。

Tesseract 頁面分割模式

Tesseract 提供了各種頁面分割模式(psm)來處理不同的文字佈局。對於單一字元識別,適當的 psm 為 10。此模式將影像視為單一字元。

字元白名單

為了將辨識的字元限制為數字,我們可以利用 tessedit_char_whitelist 設定參數。透過指定 0123456789 作為白名單,Tesseract 將只接受這些字元。

範例用法

以下是具有多個設定選項的image_to_string 的範例用法:

target = pytesseract.image_to_string(image, lang='eng', boxes=False, 
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

透過將psm 設定為10 並使用字元白名單,此配置可確保Tesseract 識別單一數字,同時將輸出限制為數值。此外,lang 指定語言,boxs 會停用文字方塊邊界,oem 選擇 OCR 引擎。

以上是如何配置 Pytesseract 以進行僅數字輸出的單位數字識別?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn