Maison  >  Article  >  développement back-end  >  Appelez pytesseract sous python pour identifier un code de vérification de site Web

Appelez pytesseract sous python pour identifier un code de vérification de site Web

高洛峰
高洛峰original
2018-05-15 09:26:383301parcourir

1. Introduction à pytesseract

1. Description de pytesseract

dernière version 0.1.6 de pytesseract

Python-tesseract est un wrapper pour Tesseract-OCR de Google.
Il est également utile en tant que
script d'invocation autonome pour tesseract, car il peut lire tous les types d'images
pris en charge par la bibliothèque d'imagerie Python, notamment jpeg, png, gif, bmp, tiff,
et other , alors que tesseract-ocr ne prend en charge par défaut que tiff et bmp.
De plus, s'il est utilisé comme script, Python-tesseract imprimera le
texte reconnu au lieu de l'écrire dans un fichier. Prise en charge des estimations de confiance et.
Les données du cadre de délimitation sont prévues pour les versions futures.

Traduisez l'idée générale :

a. Python-tesseract est un package indépendant basé sur Tesseract-OCR de Google ;

b. La fonction de Python-tesseract est de reconnaître le texte dans les fichiers image et de renvoyer le résultat de la reconnaissance comme paramètre de retour

c. Python-tesseract prend en charge les images au format tiff et bmp par défaut. peut-il prendre en charge les formats jpeg, gif, png et autres ;

2. Installation de pytesseract

INSTALLATION :

Prérequis :
* Python-tesseract nécessite python 2.5 ou later ou python 3.
* Vous aurez besoin de la Python Imaging Library (PIL). Sous Debian/Ubuntu, il s'agit
du package "python-imaging" ou "python3-imaging" pour python3.
* Installez Google tesseract-ocr depuis
Vous devez pouvoir appeler la commande tesseract en tant que "tesseract". Si ce
n'est pas le cas, par exemple parce que tesseract n'est pas dans votre PATH, vous le ferez
il faut changer la variable " tesseract_cmd" en haut de 'tesseract.py'.
Sous Debian/Ubuntu vous pouvez utiliser le package "tesseract-ocr".

Installation via pip :

Voir la [page du package pytesseract]
```
$> sudo pip install pytesseract

Traduction :

a. Python-tesseract prend en charge python2. 5 et versions supérieures ;

b. Python-tesseract doit installer PIL (Python Imaging Library) pour prendre en charge davantage de formats d'image

c. emballer.

En résumé, le principe de Pytesseract :

1. Comme mentionné dans le billet de blog précédent, l'exécution de la ligne de commande tesseract.exe 1.png output -l eng peut reconnaître les caractères chinois dans 1.png. . Et affichez les résultats de la reconnaissance dans output.txt ;

2. Pytesseract ré-encapsule le processus ci-dessus, appelle automatiquement tesseract.exe et lit le contenu du fichier output.txt comme valeur de retour de la fonction. Faites un retour.

2. Utilisez pytesseract

USAGE :
```
> essayez :
> ; depuis PIL import Image
> import pytesseract
> print(pytesseract.image_to_string(Image.open('test.png')))
> 'test-european.jpg'),))

Vous pouvez voir :

1. Le code principal est la fonction image_to_string, qui prend également en charge le paramètre -l eng et le paramètre -psm. .

Utilisation :

image_to_string(Image.open('test.png'),lang="eng" config="-psm 7")

2. L'image est appelée, donc PIL est nécessaire. En fait, tesseract.exe lui-même prend en charge les formats jpeg, png et autres.

Exemple de code pour identifier le code de vérification d'un site Web public (s'il vous plaît, ne faites pas de mauvaises choses. Après y avoir réfléchi encore et encore, j'ai finalement caché le nom de domaine du site Web. Essayons d'en trouver d'autres sites Web...) :

3. Optimisation du code Pytesseract
#-*-coding=utf-8-*-
__author__='zhongtang'
 
import urllib
import urllib2
import cookielib
import math
import random
import time
import os
import htmltool
from pytesseract import *
from PIL import Image
from PIL import ImageEnhance
import re
 
class orclnypcg:
  def __init__(self):
    self.baseUrl='http://jbywcg.****.com.cn'
    self.ht=htmltool.htmltool()
    self.curPath=self.ht.getPyFileDir()
    self.authCode=''
     
  def initUrllib2(self):
    try:
      cookie = cookielib.CookieJar()
      cookieHandLer = urllib2.HTTPCookieProcessor(cookie)
      httpHandLer=urllib2.HTTPHandler(debuglevel=0)
      httpsHandLer=urllib2.HTTPSHandler(debuglevel=0)
    except:
      raise
    else:
       opener = urllib2.build_opener(cookieHandLer,httpHandLer,httpsHandLer)
       opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')]
       urllib2.install_opener(opener)
        
  def urllib2Navigate(self,url,data={}):      #定义连接函数,有超时重连功能
    tryTimes = 0
    while True:
      if (tryTimes>20):
        print u"多次尝试仍无法链接网络,程序终止"
        break
      try:
        if (data=={}):
          req = urllib2.Request(url)
        else:
          req = urllib2.Request(url,urllib.urlencode(data))
        response =urllib2.urlopen(req)
        bodydata = response.read()
        headerdata = response.info()
        if headerdata.get('Content-Encoding')=='gzip':
          rdata = StringIO.StringIO(bodydata)
          gz = gzip.GzipFile(fileobj=rdata)
          bodydata = gz.read()
          gz.close()
        tryTimes = tryTimes +1
      except urllib2.HTTPError, e:
       print 'HTTPError[%s]\n' %e.code        
      except urllib2.URLError, e:
       print 'URLError[%s]\n' %e.reason  
      except socket.error:
        print u"连接失败,尝试重新连接"
      else:
        break
    return bodydata,headerdata
   
  def randomCodeOcr(self,filename):
    image = Image.open(filename)
    #使用ImageEnhance可以增强图片的识别率
    #enhancer = ImageEnhance.Contrast(image)
    #enhancer = enhancer.enhance(4)
    image = image.convert('L')
    ltext = ''
    ltext= image_to_string(image)
    #去掉非法字符,只保留字母数字
    ltext=re.sub("\W", "", ltext)
    print u'[%s]识别到验证码:[%s]!!!' %(filename,ltext)
    image.save(filename)
    #print ltext
    return ltext
 
  def getRandomCode(self):
    #开始获取验证码
    #http://jbywcg.****.com.cn/CommonPage/Code.aspx?0.9409255818463862
    i = 0
    while ( i<=100):
      i += 1
      #拼接验证码Url
      randomUrlNew=&#39;%s/CommonPage/Code.aspx?%s&#39; %(self.baseUrl,random.random())
      #拼接验证码本地文件名
      filename= &#39;%s.png&#39; %(i)
      filename= os.path.join(self.curPath,filename)
      jpgdata,jpgheader = self.urllib2Navigate(randomUrlNew)
      if len(jpgdata)<= 0 :
        print u&#39;获取验证码出错!\n&#39;
        return False
      f = open(filename, &#39;wb&#39;)
      f.write(jpgdata)
      #print u"保存图片:",fileName
      f.close()
      self.authCode = self.randomCodeOcr(filename)
 
 
#主程序开始
orcln=orclnypcg()
orcln.initUrllib2()
orcln.getRandomCode()

Lorsque le programme ci-dessus est exécuté sur la plate-forme Windows, vous verrez une fenêtre de console noire clignoter, ce qui n'est pas le cas. très sympathique.

Pytesseract.py légèrement modifié (répertoire C:Python27Libsite-packagespytesseract) pour masquer le processus ci-dessus.

# modifié par zhongtang masquer la fenêtre de la console

# nouveau code

IS_WIN32 = 'win32' dans str(sys.platform).lower()
if IS_WIN32 :
informations de démarrage = sous-processus .STARTUPINFO()
startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
startupinfo.wShowWindow = subprocess.SW_HIDE
proc = subprocess.Popen(command,
stderr=subprocess.PIPE,startupinfo=startupinfo)
'''
# ancien code
proc = subprocess.Popen(command,
stderr=subprocess.PIPE)
'''
# fin modifiée

pour Pour la commodité des débutants, pytesseract.py est également publié et les experts peuvent l'ignorer.

Ce qui précède...
#!/usr/bin/env python
&#39;&#39;&#39;
Python-tesseract is an optical character recognition (OCR) tool for python.
That is, it will recognize and "read" the text embedded in images.
 
Python-tesseract is a wrapper for google&#39;s Tesseract-OCR
( http://code.google.com/p/tesseract-ocr/ ). It is also useful as a
stand-alone invocation script to tesseract, as it can read all image types
supported by the Python Imaging Library, including jpeg, png, gif, bmp, tiff,
and others, whereas tesseract-ocr by default only supports tiff and bmp.
Additionally, if used as a script, Python-tesseract will print the recognized
text in stead of writing it to a file. Support for confidence estimates and
bounding box data is planned for future releases.
 
 
USAGE:
```
 > try:
 >   import Image
 > except ImportError:
 >   from PIL import Image
 > import pytesseract
 > print(pytesseract.image_to_string(Image.open(&#39;test.png&#39;)))
 > print(pytesseract.image_to_string(Image.open(&#39;test-european.jpg&#39;),))
```
 
INSTALLATION:
 
Prerequisites:
* Python-tesseract requires python 2.5 or later or python 3.
* You will need the Python Imaging Library (PIL). Under Debian/Ubuntu, this is
 the package "python-imaging" or "python3-imaging" for python3.
* Install google tesseract-ocr from http://code.google.com/p/tesseract-ocr/ .
 You must be able to invoke the tesseract command as "tesseract". If this
 isn&#39;t the case, for example because tesseract isn&#39;t in your PATH, you will
 have to change the "tesseract_cmd" variable at the top of &#39;tesseract.py&#39;.
 Under Debian/Ubuntu you can use the package "tesseract-ocr".
  
Installing via pip:  
See the [pytesseract package page](https://pypi.python.org/pypi/pytesseract)   
$> sudo pip install pytesseract  
 
Installing from source:  
$> git clone git@github.com:madmaze/pytesseract.git  
$> sudo python setup.py install  
 
 
LICENSE:
Python-tesseract is released under the GPL v3.
 
CONTRIBUTERS:
- Originally written by [Samuel Hoffstaetter](https://github.com/hoffstaetter) 
- [Juarez Bochi](https://github.com/jbochi)
- [Matthias Lee](https://github.com/madmaze)
- [Lars Kistner](https://github.com/Sr4l)
 
&#39;&#39;&#39;
 
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = &#39;tesseract&#39;
 
try:
  import Image
except ImportError:
  from PIL import Image
import subprocess
import sys
import tempfile
import os
import shlex
 
__all__ = [&#39;image_to_string&#39;]
 
def run_tesseract(input_filename, output_filename_base,, boxes=False, config=None):
  &#39;&#39;&#39;
  runs the command:
    `tesseract_cmd` `input_filename` `output_filename_base`
   
  returns the exit status of tesseract, as well as tesseract&#39;s stderr output
 
  &#39;&#39;&#39;
  command = [tesseract_cmd, input_filename, output_filename_base]
   
  if lang is not None:
    command += [&#39;-l&#39;, lang]
 
  if boxes:
    command += [&#39;batch.nochop&#39;, &#39;makebox&#39;]
     
  if config:
    command += shlex.split(config)
     
  # modified by zhongtang hide console window
  # new code
  IS_WIN32 = &#39;win32&#39; in str(sys.platform).lower()
  if IS_WIN32:
    startupinfo = subprocess.STARTUPINFO()
    startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
    startupinfo.wShowWindow = subprocess.SW_HIDE
  proc = subprocess.Popen(command,
      stderr=subprocess.PIPE,startupinfo=startupinfo)
  &#39;&#39;&#39;
  # old code
  proc = subprocess.Popen(command,
      stderr=subprocess.PIPE)
  &#39;&#39;&#39;
  # modified end
   
  return (proc.wait(), proc.stderr.read())
 
def cleanup(filename):
  &#39;&#39;&#39; tries to remove the given filename. Ignores non-existent files &#39;&#39;&#39;
  try:
    os.remove(filename)
  except OSError:
    pass
 
def get_errors(error_string):
  &#39;&#39;&#39;
  returns all lines in the error_string that start with the string "error"
 
  &#39;&#39;&#39;
 
  lines = error_string.splitlines()
  error_lines = tuple(line for line in lines if line.find(&#39;Error&#39;) >= 0)
  if len(error_lines) > 0:
    return &#39;\n&#39;.join(error_lines)
  else:
    return error_string.strip()
 
def tempnam():
  &#39;&#39;&#39; returns a temporary file-name &#39;&#39;&#39;
  tmpfile = tempfile.NamedTemporaryFile(prefix="tess_")
  return tmpfile.name
 
class TesseractError(Exception):
  def __init__(self, status, message):
    self.status = status
    self.message = message
    self.args = (status, message)
 
def image_to_string(image,, boxes=False, config=None):
  &#39;&#39;&#39;
  Runs tesseract on the specified image. First, the image is written to disk,
  and then the tesseract command is run on the image. Resseract&#39;s result is
  read, and the temporary files are erased.
   
  also supports boxes and config.
   
  if boxes=True
    "batch.nochop makebox" gets added to the tesseract call
  if config is set, the config gets appended to the command.
    ex: config="-psm 6"
 
  &#39;&#39;&#39;
 
  if len(image.split()) == 4:
    # In case we have 4 channels, lets discard the Alpha.
    # Kind of a hack, should fix in the future some time.
    r, g, b, a = image.split()
    image = Image.merge("RGB", (r, g, b))
   
  input_file_name = &#39;%s.bmp&#39; % tempnam()
  output_file_name_base = tempnam()
  if not boxes:
    output_file_name = &#39;%s.txt&#39; % output_file_name_base
  else:
    output_file_name = &#39;%s.box&#39; % output_file_name_base
  try:
    image.save(input_file_name)
    status, error_string = run_tesseract(input_file_name,
                       output_file_name_base,
                       lang=lang,
                       boxes=boxes,
                       config=config)
    if status:
      #print &#39;test&#39; , status,error_string
      errors = get_errors(error_string)
      raise TesseractError(status, errors)
    f = open(output_file_name)
    try:
      return f.read().strip()
    finally:
      f.close()
  finally:
    cleanup(input_file_name)
    cleanup(output_file_name)
 
def main():
  if len(sys.argv) == 2:
    filename = sys.argv[1]
    try:
      image = Image.open(filename)
      if len(image.split()) == 4:
        # In case we have 4 channels, lets discard the Alpha.
        # Kind of a hack, should fix in the future some time.
        r, g, b, a = image.split()
        image = Image.merge("RGB", (r, g, b))
    except IOError:
      sys.stderr.write(&#39;ERROR: Could not open file "%s"\n&#39; % filename)
      exit(1)
    print(image_to_string(image))
  elif len(sys.argv) == 4 and sys.argv[1] == &#39;-l&#39;:
   .argv[2]
    filename = sys.argv[3]
    try:
      image = Image.open(filename)
    except IOError:
      sys.stderr.write(&#39;ERROR: Could not open file "%s"\n&#39; % filename)
      exit(1)
    print(image_to_string(image,))
  else:
    sys.stderr.write(&#39;Usage: python pytesseract.py [-l language] input_file\n&#39;)
    exit(2)
 
if __name__ == &#39;__main__&#39;:
  main()

La méthode ci-dessus pour appeler pytesseract pour identifier le code de vérification d'un site Web sous Python est tout le contenu partagé par l'éditeur, j'espère qu'elle pourra donner. vous une référence, j'espère aussi que tout le monde soutiendra le site Web PHP chinois.

Pour plus d'articles sur l'appel de pytesseract pour identifier un code de vérification de site Web sous Python, veuillez faire attention au site Web PHP chinois !

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn