Heim >Backend-Entwicklung >Python-Tutorial >Wie konfiguriere ich Pytesseract nur für die Erkennung einstelliger Zahlen?
Pytesseract OCR: Konfigurieren für die Einzelziffern- und Nur-Zahlen-Erkennung
Pytesseract, eine Open-Source-OCR-Bibliothek, bietet Flexibilität bei der Konfiguration seinen Motor für spezifische Anforderungen. In diesem Zusammenhang wollen wir Tesseract so konfigurieren, dass es einzelne Ziffern erkennt, es aber auf Zahlen beschränken, da die Ziffer „0“ oft als Buchstabe „O“ fehlinterpretiert werden kann.
Problemdefinition
Der Benutzer stößt auf Schwierigkeiten, wenn er Pytesseract für diesen Zweck wie folgt konfiguriert Syntax:
target = pytesseract.image_to_string(im,config='-psm 7',config='outputbase digits')
Konfigurationsparameter
Wie in tesseract-4.0.0a beschrieben, unterstützt Tesseract verschiedene Seitensegmentierungsmodi mit jeweils spezifischen Eigenschaften. Um die Erkennung einzelner Zeichen zu ermöglichen, setzen wir psm auf 10. Um die Erkennung auf Ziffern zu beschränken, stellen wir außerdem tessedit_char_whitelist so ein, dass nur der gewünschte Ziffernbereich (0-9) enthalten ist.
target = pytesseract.image_to_string(image, lang='eng', boxes=False, \ config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
Das obige ist der detaillierte Inhalt vonWie konfiguriere ich Pytesseract nur für die Erkennung einstelliger Zahlen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!