具有单位数字识别和仅限数字约束的 Pytesseract OCR
在 Pytesseract 的上下文中,配置 Tesseract 以识别单位数字并限制输出数字可能具有挑战性。为了解决这个问题,我们深入研究了 Tesseract 配置选项的细节。
Tesseract 页面分割模式
Tesseract 提供了各种页面分割模式(psm)来处理不同的文本布局。对于单个字符识别,适当的 psm 为 10。此模式将图像视为单个字符。
字符白名单
为了将识别的字符限制为数字,我们可以利用 tessedit_char_whitelist 配置参数。通过指定 0123456789 作为白名单,Tesseract 将只接受这些字符。
示例用法
以下是具有多个配置选项的 image_to_string 的示例用法:
target = pytesseract.image_to_string(image, lang='eng', boxes=False, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
通过将 psm 设置为 10 并使用字符白名单,此配置可确保 Tesseract 识别单个数字,同时将输出限制为数值。此外,lang 指定语言,boxs 禁用文本框边界,oem 选择 OCR 引擎。
以上是如何配置 Pytesseract 以进行仅数字输出的单位数字识别?的详细内容。更多信息请关注PHP中文网其他相关文章!