Maison > Article > développement back-end > Comment installer et configurer tesseract-ocr 4.00 sous Windows ?
Récemment, je dois faire de la reconnaissance de texte et je ne suis pas autorisé à utiliser directement les interfaces d'autres personnes, je ne peux donc essayer que d'utiliser des bibliothèques open source. tesseract-ocr est un projet de reconnaissance de texte open source de HP. Il peut créer rapidement un système de reconnaissance d'images et de texte et nous aider à développer un système OCR capable de reconnaître les images. Parce que je développe dans un environnement Windows, je dois installer le système dans un environnement Windows.
Étape 1 : Téléchargez le package d'installation
D'après cela, j'ai trouvé le package d'installation non officiel Il semble que je n'ai vu que le package d'installation 64 bits http://digi.bib. uni-mannheim .de/tesseract/tesseract-ocr-setup-4.00.00dev.exe, vous pouvez l'installer directement après le téléchargement, mais n'oubliez pas votre répertoire d'installation, nous configurerons les variables d'environnement plus tard.
Si vous n'effectuez pas de reconnaissance d'images et de texte en anglais, vous devez également télécharger des packages de reconnaissance dans d'autres langues.
Package de reconnaissance de caractères chinois simplifié :
Package de reconnaissance de caractères chinois traditionnels :
Étape 2 : Installer
Exécuter directement le fichier téléchargé tesseract -ocr-setup-4.00.00dev.exe, étape suivante, étape suivante pour l'installation.
Étape 3 : Configurer les variables d'environnement
Remarque : Mon système est Win7, les autres systèmes devraient être similaires, tout comme la configuration des variables Java
Copiez votre adresse d'installation, je suis installé dans C:Program Files (x86)Tesseract-OCR, l'interface est la suivante :
Copiez le chemin d'installation "C:Program Files (x86)Tesseract-OCR" et entrez « Système de panneau de configuration et système de sécurité », cliquez sur
« Protection du système »
pour accéder à l'interface suivante :
Cliquez sur les variables d'environnement pour accéder à l'interface de configuration suivante :
Ajoutez le chemin d'installation "C:Program Files (x86)Tesseract-OCR" à la ligne rouge PATH et Path, veuillez noter que lors de l'ajout, utilisez ";" pour la séparer des variables précédentes au début et terminez par ";" à la fin. Voici un exemple de mes informations de configuration :
C:UsersAdministratorAppDataRoamingComposervendorbin;C:UsersAdministratorAppDataRoamingnpm;C:Program Files (x86)Tesseract-OCR;
Après la configuration, cliquez sur Enregistrer .
Ouvrez le terminal de commande, entrez : tesseract -v, vous pouvez voir les informations de version
Si une erreur se produit, elle est probablement une variable d'environnement non configurée correctement.
À ce stade, même si nous avons terminé l'installation, notre système ne peut toujours pas reconnaître le chinois. Nous devons télécharger les packs de langue chinoise simplifiée et chinoise traditionnelle (les adresses sont indiquées ci-dessus). Après le téléchargement, placez Just). allez dans le répertoire tessconfigs du répertoire d'installation.
Supplémentaire : Comme aucune variable globale n'est configurée, la conversion des données ne peut pas être effectuée sur les disques. Ici, nous ajoutons des informations de configuration à la variable d'environnement
Variables système—->Nouveau :
.Ajoutez un nom de variable TESSDATA_PREFIX, la valeur de la variable est toujours mon chemin d'installation C:Program Files (x86)Tesseract-OCR;
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!