Pytesseract OCR 多配置配置
使用Pytesseract 進行光學字元辨識(OCR) 時,最佳化其設定以增強效能至關重要場景的準確性。本文解決了 OCR 難以區分單位數字和字母「O」的特定問題。
問題:
Pytesseract 無法區分數字零和字母「O」(當設定「-psm 7」表示單位數時)
解決方案:
為了應對這個挑戰,Tesseract 4.0.0a 提供了兩個關鍵設定選項:
範例程式碼:
以下程式碼示範如何使用這些設定選項在一起:
import pytesseract from PIL import Image # Load the image im = Image.open('digits_image.png') # Multiple configuration options target = pytesseract.image_to_string(im, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
使用此設定,Pytesactact可以準確辨識個位數,同時排除誤認為「O」的可能性。
以上是如何配置 Pytesseract 來區分單位數字識別中的'0”和'O”?的詳細內容。更多資訊請關注PHP中文網其他相關文章!