Maison >développement back-end >Tutoriel Python >Comment puis-je configurer Pytesseract pour reconnaître uniquement les chiffres uniques ?

Comment puis-je configurer Pytesseract pour reconnaître uniquement les chiffres uniques ?

Susan Sarandon
Susan Sarandonoriginal
2024-12-01 10:33:13263parcourir

How Can I Configure Pytesseract to Recognize Only Single Digits?

Options de configuration multiples pour Pytesseract OCR

Pytesseract est un puissant outil OCR largement utilisé pour extraire du texte à partir d'images. Cependant, il peut rencontrer des difficultés lorsqu'il est chargé de reconnaître des jeux de caractères spécifiques. Pour surmonter ces limitations, les utilisateurs ont souvent recours à la configuration de Tesseract avec des paramètres personnalisés.

Un scénario courant implique de configurer Tesseract pour accepter des chiffres uniques tout en excluant d'autres caractères. Cela devient essentiel pour faire la distinction entre le chiffre zéro et la lettre « O », qui peut paraître identique dans certains cas. Pour y parvenir, Tesseract propose plusieurs options de configuration qui peuvent être ajustées en conséquence.

À l'aide des paramètres psm et tessedit_char_whitelist

Avec la sortie de Tesseract 4.0.0a, les utilisateurs ont accès à une gamme plus large de modes de segmentation de page (valeurs psm). Pour les scénarios où la reconnaissance d’un seul caractère est l’objectif principal, définir psm sur 10 s’avère efficace. Ce paramètre demande à Tesseract de traiter l'image comme un seul caractère.

De plus, pour limiter la reconnaissance de Tesseract aux nombres uniquement, les utilisateurs peuvent utiliser le paramètre tessedit_char_whitelist. En spécifiant une liste blanche de caractères, telle que 0123456789, Tesseract reconnaîtra exclusivement les caractères de cette liste blanche.

Exemple d'utilisation

Le code suivant montre comment combiner le psm et la tessedit_char_whitelist paramètres dans un cadre pratique :

import pytesseract

target = pytesseract.image_to_string(image, lang='eng', boxes=False, \
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

Dans cet exemple, la variable image représente l'image d'entrée à traiter et lang='eng' précise que le texte est en anglais. En définissant boxes=False, la fonction n'affichera pas de cadres de délimitation pour les caractères reconnus.

Le paramètre --psm 10 garantit que la reconnaissance d'un seul caractère est utilisée, tandis que le paramètre --oem 3 sélectionne le moteur OCR par défaut. Enfin, le paramètre -c tessedit_char_whitelist=0123456789 restreint la reconnaissance aux nombres uniquement.

En comprenant et en exploitant ces multiples options de configuration, les utilisateurs peuvent adapter efficacement le comportement de Pytesseract à leurs besoins OCR spécifiques, permettant ainsi une extraction de texte précise et précise.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn