>  기사  >  백엔드 개발  >  Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.

Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.

小云云
小云云원래의
2018-03-29 13:31:271877검색

1. Tesseract 소개

Tesseract는 OCR 라이브러리입니다(OCR은 Optical Character Recognition(광학 문자 인식)의 약어입니다.) 텍스트 데이터를 스캔한 다음 이미지 파일을 분석 및 처리하고 텍스트 및 레이아웃 정보를 얻는 데 사용됩니다. Tesseract는 현재 비교적 정확한 인식으로 최고의 OCR 라이브러리로 인정받고 있습니다.

2. Tesseract 사용

1. Tesseract 다운로드 및 설치: 다운로드하려면 클릭하세요.

2. Windows 시스템에서 환경 변수를 설정하세요.


#根据下载安装文件的路径配置环境变量
set TESSDATA_PREFIX F:\Tesseract-OCR\

3. 4. Python 스크립트에서 tesseract.exe 애플리케이션을 소개하는 방법:


pip install pytesseract

5. 사례 데모

다음 그림 텍스트를 인식하세요.


pytesseract.pytesseract.tesseract_cmd = r'F:\Tesseract-OCR\tesseract.exe'
결과 데모:

423a585462adc67b2772248ce5bb3c76
Google

참고: tesseract-OCR 엔진은 일부 인증 코드를 인식할 수 없습니다. 예를 들어 Douban에서 생성한 인증 코드는 크롤링이 필요한 경우 해당 콘텐츠를 식별할 수 없습니다. Douban 현재 데이터는 인증 코드를 수동으로 입력해야 합니다:




3. 로그인 시뮬레이션 Zhihu 소스 코드

import pytesseract
from PIL import Image
#1.引入Tesseract程序
pytesseract.pytesseract.tesseract_cmd = r'F:\Tesseract-OCR\tesseract.exe'
#2.使用Image模块下的Open()函数打开图片
image = Image.open('6.jpg',mode='r')
print(image)
#3.识别图片文字
code= pytesseract.image_to_string(image)
print(code)
관련 권장 사항:


Python에서 pytesseract를 호출하여 웹사이트 인증 코드

위 내용은 Python은 Tesseract 라이브러리를 사용하여 식별 확인을 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.