首頁 >後端開發 >Python教學 >如何配置 Pytesseract 以僅識別單一數字?

如何配置 Pytesseract 以僅識別單一數字?

Susan Sarandon
Susan Sarandon原創
2024-12-01 10:33:13277瀏覽

How Can I Configure Pytesseract to Recognize Only Single Digits?

Pytesseract OCR 的多個配置選項

Pytesseract 是一個強大的 OCR 工具,廣泛用於從圖像中提取文字。然而,在識別特定字元集的任務時,它可能會遇到挑戰。為了克服這些限制,使用者經常使用自訂參數來配置 Tesseract。

一個常見的場景是將 Tesseract 配置為接受單一數字,同時排除其他字元。在區分數字零和字母“O”時,這一點變得至關重要,因為數字零和字母“O”在某些情況下可能看起來相同。為了實現這一點,Tesseract 提供了多個可以進行相應調整的配置選項。

使用 psm 和 tessedit_char_whitelist 參數

隨著 Tesseract 4.0.0a 的發布,使用者獲得存取權限更廣泛的頁面分段模式(psm 值)。對於以單一字元識別為主要目標的場景,將 psm 設為 10 證明是有效的。此參數指示 Tesseract 將影像視為單一字元。

此外,要將 Tesseract 的辨識範圍限制為僅數字,使用者可以使用 tessedit_char_whitelist 參數。透過指定字元白名單,例如 0123456789,Tesseract 將獨佔該白名單中的字元。

範例用法

以下程式碼示範如何結合psm 和tessedit_char_whitelist實際參數設定:

在此範例中,image 變數表示要處理的輸入圖像,lang='eng' 指定文字為英文。透過設定boxes=False,函數將不會輸出已識別字元的邊界框。

--psm 10 參數確保使用單一字元識別,而--oem 3 參數選擇預設的 OCR 引擎。最後, -c tessedit_char_whitelist=0123456789 參數將識別僅限於數字。

透過理解和利用這些多個配置選項,使用者可以有效地自訂 Pytesseract 的行為以滿足其特定的 OCR 需求,從而實現準確且精確的文本提取。

以上是如何配置 Pytesseract 以僅識別單一數字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn