Maison >développement back-end >Tutoriel Python >Comment configurer Pytesseract pour la reconnaissance de numéros à un chiffre uniquement ?
Pytesseract OCR : configuration pour la reconnaissance à un seul chiffre et par nombre uniquement
Pytesseract, une bibliothèque OCR open source, offre une flexibilité dans la configuration son moteur pour des besoins spécifiques. Dans ce contexte, nous visons à configurer Tesseract pour qu'il reconnaisse les chiffres uniques tout en le limitant aux nombres, car le chiffre « 0 » peut souvent être interprété à tort comme la lettre « O ».
Définition du problème
L'utilisateur rencontre des difficultés lors de la configuration de Pytesseract à cet effet en utilisant ce qui suit syntaxe :
target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')
Paramètres de configuration
Comme indiqué dans tesseract-4.0.0a, Tesseract prend en charge différents modes de segmentation de page, chacun avec des caractéristiques spécifiques. Pour activer la reconnaissance d'un seul caractère, nous définissons psm sur 10. De plus, pour limiter la reconnaissance aux chiffres, nous définissons tessedit_char_whitelist pour inclure uniquement la plage de chiffres souhaitée (0-9).
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!