Pytesseract OCR:配置单位数和仅数字识别
Pytesseract 是一个开源 OCR 库,提供配置方面的灵活性其发动机满足特定要求。在这种情况下,我们的目标是将 Tesseract 配置为识别单个数字,同时将其限制为数字,因为数字“0”经常会被误解为字母“O”。
问题定义
用户在使用以下方法为此目的配置 Pytesseract 时遇到困难语法:
target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')
配置参数
如 tesseract-4.0.0a 中所述,Tesseract 支持各种页面分段模式,每种模式都有特定的特征。为了启用单字符识别,我们将 psm 设置为 10。此外,为了限制对数字的识别,我们将 tessedit_char_whitelist 设置为仅包含所需的数字范围 (0-9)。
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
以上是如何配置 Pytesseract 仅进行单位数字识别?的详细内容。更多信息请关注PHP中文网其他相关文章!