집 >백엔드 개발 >파이썬 튜토리얼 >Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.

Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.

小云云원래의: 2018-03-29 13:31:272032검색

1. Tesseract 소개

Tesseract는 OCR 라이브러리입니다(OCR은 Optical Character Recognition(광학 문자 인식)의 약어입니다.) 텍스트 데이터를 스캔한 다음 이미지 파일을 분석 및 처리하고 텍스트 및 레이아웃 정보를 얻는 데 사용됩니다. Tesseract는 현재 비교적 정확한 인식으로 최고의 OCR 라이브러리로 인정받고 있습니다.

2. Tesseract 사용

1. Tesseract 다운로드 및 설치: 다운로드하려면 클릭하세요.

2. Windows 시스템에서 환경 변수를 설정하세요.

#根据下载安装文件的路径配置环境变量
set TESSDATA_PREFIX F:\Tesseract-OCR\

3. 4. Python 스크립트에서 tesseract.exe 애플리케이션을 소개하는 방법:

pip install pytesseract

5. 사례 데모

다음 그림 텍스트를 인식하세요.

pytesseract.pytesseract.tesseract_cmd = r&#39;F:\Tesseract-OCR\tesseract.exe&#39;

결과 데모:

Google

참고: tesseract-OCR 엔진은 일부 인증 코드를 인식할 수 없습니다. 예를 들어 Douban에서 생성한 인증 코드는 크롤링이 필요한 경우 해당 콘텐츠를 식별할 수 없습니다. Douban 현재 데이터는 인증 코드를 수동으로 입력해야 합니다:

3. 로그인 시뮬레이션 Zhihu 소스 코드

import pytesseract
from PIL import Image
#1.引入Tesseract程序
pytesseract.pytesseract.tesseract_cmd = r&#39;F:\Tesseract-OCR\tesseract.exe&#39;
#2.使用Image模块下的Open()函数打开图片
image = Image.open('6.jpg',mode='r')
print(image)
#3.识别图片文字
code= pytesseract.image_to_string(image)
print(code)

Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.

관련 기사