단일 숫자 인식 및 숫자 전용 제약 조건을 갖춘 Pytesseract OCR
Pytesseract의 맥락에서 단일 숫자를 인식하고 출력을 제한하도록 Tesseract 구성 숫자를 계산하는 것은 어려울 수 있습니다. 이 문제를 해결하기 위해 Tesseract 구성 옵션의 세부 사항을 조사합니다.
Tesseract 페이지 분할 모드
Tesseract는 다양한 텍스트를 처리하기 위해 다양한 페이지 분할 모드(psm)를 제공합니다. 레이아웃. 단일 문자 인식의 경우 적절한 psm은 10입니다. 이 모드는 이미지를 단일 문자로 처리합니다.
문자 허용 목록
인식되는 문자를 숫자로 제한하기 위해 tessedit_char_whitelist 구성 매개변수를 활용할 수 있습니다. 0123456789를 화이트리스트로 지정하면 Tesseract는 이러한 문자만 허용합니다.
샘플 사용법
다음은 여러 구성 옵션이 있는 image_to_string의 사용법 예입니다:
target = pytesseract.image_to_string(image, lang='eng', boxes=False, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')
psm을 10으로 설정하고 문자 화이트리스트를 사용하면 이 구성을 통해 Tesseract가 출력을 숫자 값으로 제한하면서 한 자리 숫자를 인식할 수 있습니다. 또한 lang은 언어를 지정하고, 상자는 텍스트 상자 경계를 비활성화하며, oem은 OCR 엔진을 선택합니다.
위 내용은 숫자만 출력하는 단일 숫자 인식을 위해 Pytesseract를 어떻게 구성할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!