首頁 >後端開發 >Python教學 >如何配置 Pytesseract 來區分單位數字識別中的'0”和'O”?

如何配置 Pytesseract 來區分單位數字識別中的'0”和'O”?

Linda Hamilton
Linda Hamilton原創
2024-11-26 06:20:09788瀏覽

How Can I Configure Pytesseract to Distinguish Between

Pytesseract OCR 多配置配置

使用Pytesseract 進行光學字元辨識(OCR) 時,最佳化其設定以增強效能至關重要場景的準確性。本文解決了 OCR 難以區分單位數字和字母「O」的特定問題。

問題:

Pytesseract 無法區分數字零和字母「O」(當設定「-psm 7」表示單位數時)

解決方案:

為了應對這個挑戰,Tesseract 4.0.0a 提供了兩個關鍵設定選項:

  • psm (頁面分割模式): 指定 Tesseract 如何將影像分割為區域的文字。對於單一字元識別,psm 應設定為 10。
  • tessedit_char_whitelist: 限制 Tesseract 僅辨識指定字元。在這種情況下,白名單應僅限於數字,例如“0123456789”。

範例程式碼:

以下程式碼示範如何使用這些設定選項在一起:

import pytesseract
from PIL import Image

# Load the image
im = Image.open('digits_image.png')

# Multiple configuration options
target = pytesseract.image_to_string(im, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

使用此設定,Pytesactact可以準確辨識個位數,同時排除誤認為「O」的可能性。

以上是如何配置 Pytesseract 來區分單位數字識別中的'0”和'O”?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn